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过 往 的 科幻 现 已 成 真 ， 在 人 工 智能 时 代 我 们 与 计算 机 、 手 机 和 娱乐 设 
备 的 交互 正在 经 历 革 命 性 的 变化 ， 基 于 和 触摸、 手势 、 语 音 和 视觉 的 自然 人 
机 交互 正在 逐渐 替代 使 用 键盘 、 鼠 标 和 游戏 手柄 等 的 交互 。 显 示 设 备 也 从 
单纯 的 显示 设备 转变 为 提供 更 具 吸引 力 和 沉浸 式 体验 的 双向 交互 设备 。 本 
书 将 深入 讲解 基于 和 触摸、 手势 、 语 音 和 视觉 等 自然 人 机 交互 领域 的 技术 、 
应 用 和 未 来 趋势 。 

本 书 适合 从 事 人 机 交互 领域 工作 的 研究 、 设 计 、 开 发 人 员 ， 相 关 专 业 师 
生 ， 以 及 人 工 智 能 时 代 下 对 人 机 交互 未 来 发 展 趋势 有 浓厚 兴趣 的 人 士 阅读 。 
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原 书 序 


人 类 对 机 器 的 交互 式 使 用 可 以 追溯 到 数 千年 以 前 。 世 界 上 第 一 台 自 动 贩卖 机 可 能 是 古 希 腊 
工程 师 Philo 在 公元 前 220 年 发 明 的 。 只 需 投 入 一 枚 硬币 ， 它 就 会 把 称 量 好 的 肥皂 传送 到 鳃 洗 
合 上 。 这 是 一 台 带 有 擒 纵 机 构 的 机 械 装置 。 这 台 顾 为 先进 的 机 带 无 疑 代表 了 当时 最 前 沿 的 科 
技 ， 但 要 说 它 对 社会 行为 的 发 展 产生 了 显著 影响 ， 这 是 值得 商检 的 。 在 往 后 的 2200 多 年 里 ， 
我 们 发 现 自己 已 经 处 于 明显 不 同 的 境地 。 仅 仅 50 年 前 ， 第 一 台电 容 触摸 屏 问 世 了 ; 30 年 后 这 
项 技术 发 展 成 熟 ， 已 经 广泛 应 用 在 笔记 本 电脑 、 销 售 点 终端 这 样 的 高 端 设 备 以 及 掌上 消费 品 市 
场 ; 又 一 个 10 年 过 去 了 ， 如 今 的 触 控 设备 ， 至 少 是 手持 装置 已 经 开始 无 处 不 在 。 

这 有 力 地 推动 了 本 书 的 出 版 。 本 书 由 一 组 不 同 领 域 的 高 级 技术 专家 联合 撰写 ,涵盖 了 包 
括 触 摸 、 声 音 和 视觉 等 主要 交互 形式 。 前 两 类 互动 形式 将 分 两 章 分 别 讨论 ， 视 觉 部 分 将 在 后 
五 章 阐 释 ， 主 要 关注 已 经 问世 或 吸 待 问 志 的 视觉 科技 特性 。 随 后 两 章 将 介绍 用 来 开发 多 模 态 
交互 显示 的 多 种 方法 。 本 书 结尾 探讨 如 何 呈 现 最 为 真实 的 3D 立体 图 像 。 由 于 当前 显示 系统 
仅 能 保留 高 强度 数据 ， 而 想 要 获得 近似 于 人 有 眼 直 接 观察 到 的 自然 效果 ， 就 得 通过 保留 已 丢失 
的 相位 信息 来 实现 了 。 

自 此 ， 读 考 会 得 出 结论 : 本 书 全 面 回顾 了 当前 新 兴 科 技 的 发 展 。 其 实 不 尽 然 ， 因 为 我 更 
想 指出 的 是 智能 交互 技术 对 社会 带 来 的 影响 。 虽 然 这 些 影 响 主 要 是 积极 的 ， 但 是 也 可 能 存在 
某 些 消极 方面 。 这 些 都 是 公众 关注 的 重要 问题 ， 因 而 值得 辩论 。 积 极 的 方面 包括 使 用 便捷 ; 
能 够 通过 电脑 或 手机 系统 进行 直观 推理 和 预测 ; 用 简单 的 声音 指令 就 能 对 复杂 的 结果 进行 讨 
论 和 管理 ; 为 号 体 不 便 的 用 户 带 来 便利 ， 并 使 其 充分 体验 当前 的 各 种 产品 ， 等 等 。 然 而 消极 
的 影响 是 ， 比 起 现在 ， 通 信 系 统 会 更 广泛 地 侵入 用 户 的 生活 。 通 话 中 的 手机 不 仅 早已 被 怀疑 
用 来 追踪 定位 ， 其 未 来 系统 还 会 更 深入 探测 我 们 的 行为 模式 。 原 则 上 ， 依 靠 计 量 生物 数据 来 
辨别 身份 的 安全 系统 应 当 比 目前 的 芯片 和 个 人 识别 码 技术 更 值得 信赖 ， 然 而 一 旦 前 者 的 安全 
系统 受 损 ， 可 能 泄露 的 安全 数据 将 比 后 者 要 多 得 多 。 

未 来 人 机 交互 体验 的 丰富 程度 ， 除 非 当 前 用 户 亲 身 使 用 ， 否 则 他 们 是 难以 想象 的 。 过 往 
的 科幻 现 已 成 真 。 在 技术 创造 的 诸多 可 能 性 被 供应 商 和 用 户 采 纳 之 前 ， 有 些 问题 必须 讨论 和 
解决 。 本 书 为 此 提供 了 多 方面 的 素材 和 依据 。 对 参与 该 主题 的 科学 技术 工作 者 和 开发 交互 产 
品 的 参与 者 来 说 ,， 这 将 是 一 本 重要 的 书 ; 对 于 有 兴趣 了 解 或 需要 了 解 交 互 技术 会 如 何 影 响 未 
来 社会 与 人 际 行为 的 广大 读者 来 说 ， 本 书 也 不 容错 过 。 
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原 书 前 言 














什么 是 “人 机 交互 显示 ” 呢 ? 我 们 将 其 定义 为 不 仅 能 够 在 屏幕 上 显示 可 视 信息 ， 还 能 
感知 和 理解 人 类 行为 、 接 收 用 户 直接 输入 的 显示 器 。 能 够 “感觉 ”到 手指 触摸 的 触摸 屏 已 
经 十 分 普遍 ， 尤 其 是 那些 装配 在 移动 设备 和 一 体 化 计算 机 上 的 。 现 在 ， 新 增 的 类 人 传 感 与 理 
解 识别 技术 正在 推进 新 型 交互 式 显 示 融 及 系统 的 开发 ， 使 其 能 够 在 所 处 的 3D 空间 中 “看 ” 
“上 听 ” 且 “领会 ”我 们 的 行为 。 

我 们 运用 多 感官 和 多 模 态 界面 模式 来 理解 周围 的 客观 物理 世界 ， 并 与 人 们 在 日 常生 活 中 交 
流 。 这 些 都 是 通过 无 缝 拼接 包括 触摸 、 声 首 、 姿 势 、 面 部 表情 和 凝视 在 内 的 多 种 交互 模式 实现 
的 。 我 们 如 果 想 通过 人 机 交互 来 获取 社交 交互 的 丰富 内 涵 ， 就 必须 为 这 些 设备 装 上 能 够 感知 与 领 
悟 用 户 的 输入 与 活动 的 技术 。 因 此 ， 增 加 多 种 自然 用 户 界面 能 够 使 人 类 互动 的 体验 更 为 真实 。 

我 们 与 计算 机 交互 的 方式 经 历 了 最 近 几 十 年 的 变革 ,依靠 鼠标 和 键盘 作为 输入 工具 的 图 
形 用 户 界面 已 取代 传统 的 基于 文本 输入 的 命令 式 界 面 。 而 眼下 ， 随 着 自然 用 户 界面 (通过 
触摸 、 姿 势 、 语 音 等 模式 的 人 机 交互 ) 的 兴起 ,我 们 正 目 睹 着 下 一 场 技术 革命 的 开始 。 实 
施 人 机 界面 模式 的 最 终 目标 就 是 为 用 户 呈 现 自然 、 直 观 、 身 临 其 境 般 的 交互 体验 。 虽 然 当 前 
的 技术 局 限 使 得 设计 师 和 工程 师 不 得 不 有 所 妥协 ， 致 使 部 分 目标 仅 能 在 完成 某 个 特殊 产品 时 
实现 ， 但 是 为 了 实现 最 终 目 标 ， 我 们 在 近 几 年 来 不 断 取得 重大 进展 。 

本 书 聚 焦 自 然 用 户 界面 ， 对 快速 兴起 的 人 机 交互 式 显示 领域 内 的 技术 、 应 用 以 及 发 展 趋 
势 进行 了 深度 解读 。 第 1 章 主 要 介绍 人 类 感知 和 理解 过 程 的 基本 要 素 ， 回 顾 了 以 触摸 、 声 音 
和 视觉 感应 推理 为 基础 的 自然 界面 技术 ， 以 及 通过 该 技术 实现 的 人 机 交互 过 程 ; 随后 各 章 深 
入 每 种 输入 与 交互 模 态 的 细节 ， 在 实现 多 感官 和 多 模 态 交互 的 目标 过 程 中 ， 对 技术 的 基本 原 
理 及 其 在 多 种 用 户 界面 模式 中 的 结合 与 应 用 展开 细致 的 探讨 ， 最 后 一 章 总 结 了 基本 要 求 和 技 
术 发 展现 状 ， 展 望 了 未 来 有 望 实现 的 “真实 的 ”3D 交互 界面 及 其 带 来 的 真实 的 、 沉 浸 式 的 
交互 体验 。 

我 向 编辑 Anthony Lowe 人 致谢， 是 他 发 现 了 著 书 探讨 交互 式 显示 的 必要 性 。 我 感谢 对 本 
书 做 出 贡献 的 企业 界 和 学 术 界 专家 ， 感 谢 Wiley 出 版 社 的 员工 对 本 书 的 支持 。 最 后 ， 谨 以 此 
书 献 给 Shida, Rohan 和 Ava， 没 有 你 们 的 鼓励 和 支持 我 无 法 开展 并 完成 这 个 项 目 。 
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第 1 章 


交互 式 显示 的 感知 、 理 解 与 自然 人 机 界面 


Achintya K. Bhowmik 
美国 英特尔 集团 


1.1 515 


如 今 ， 可 视 化 显示 设备 已 成 为 丰富 多 彩 的 电子 产品 中 不 可 或 缺 的 一 部 分 。 作 为 人 与 电 
脑 、 通 信 系 统 和 娱乐 系统 交互 的 主要 界面 ， 其 应 用 已 经 融入 居家 、 工 作 或 出 行 等 生活 的 方 方 
面 面 。 无论 是 腕 上 的 手表 ， 还 是 随 映 次 在 口袋 或 钱包 里 的 手机 ， 抑 或 是 用 来 网 上 冲浪 、 获 取 
多 媒体 信息 的 平板 电脑 ， 再 或 者 是 工作 的 笔记 本 电脑 或 台式 电脑 ， 还 有 客厅 中 心 的 巨 屏 电 
视 、 商 务 会 议 使 用 的 演示 投影 仪 ， 可 视 化 显示 顺 都 是 这 些 设备 面向 我 们 用 户 的 “颜面 ”。 

这 类 显示 带 频 繁 应 用 于 各 种 特定 的 公共 场所 ， 比 如 机 场 自助 登 机 手续 办 理 终端 ， 零 售 店 
自助 付款 机 、 大 型 购物 商场 的 广告 牌 以 及 博物 馆 的 公共 展示 一 一 用 途 不 计 其 数 。 近 十 年 来 ， 
巨大 的 应 用 潜力 和 市 场 需求 促进 了 全 球 可 视 化 显示 技术 的 研发 。 从 移动 显示 到 巨 屏 显示 ， 多 
样 化 的 产品 层出不穷 11 -51 。 

只 要 扫 一 眼 可 视 化 显示 设备 的 市 场 规 模 ， 我 们 就 能 很 快 领会 它 给 生活 带 来 的 影响 。 来 自 
显示 产业 分 析 公 司 IHS 的 报告 说 明 ， 近 五 年 来 ， 销 往 世 界 各 地 的 平面 显示 设备 总 额 高 达 170 
亿美 元 :9] ， 年 度 出 货 量 超过 50% 的 增 速 也 说 明了 这 一 技术 的 快速 普及 率 。 

总 体 来 说 ,一 台电 子 设备 主要 完成 三 项 基本 功能 .接受 用 户 指示 ， 按 照 指 示 及 所 获 信息 
执行 某 些 处 理 功能 ,呈现 输出 或 向 用 户 报 告 处 理 结果 。 比 如 ， 当 作者 在 笔记 本 电脑 上 进行 本 
章 的 写作 时 ， 他 首先 用 键盘 和 鼠标 输入 信息 ， 然 后 微 处 理 絮 就 会 执行 文字 处 理 软 件 ， 将 训 击 
键盘 和 点 击 鼠 标 发 出 的 命令 转换 成 目标 文本 和 格式 ， 最后， 电脑 的 液晶 显示 屏 就 会 以 可 视 化 
的 输出 实时 显示 文字 。 由 此 可 见 ， 设 备 里 的 显示 子 系统 已 经 在 向 用 户 呈 现 信息 方面 发 挥 了 至 
关 重 要 的 作用 。 除 了 某 些 特例 之 外 ， 大 多 数 近 期 生产 的 电子 产品 都 配备 了 显示 屏幕 ， 唯 一 的 
目的 就 是 为 了 显示 视觉 信息 。 

然而 近 几 年 来 ， 人 机 互动 和 用 户 界 面 范式 一 直 在 经 历 着 快速 的 演变 和 创新 。 我 们 与 电脑 












































































































































































































































2 CRRA: 人 工 智 能 下 的 人 机 交互 技术 


交流 的 方式 经 过 几 十 年 的 变革 已 经 大 不 相同 。 在 文本 型 的 老式 命令 输入 界面 被 淘汰 以 后 ， 取 
而 代 之 的 是 依靠 鼠标 和 键盘 输入 的 图 形 用 户 界面 。 随 着 更 多 自然 用 户 界面 的 出 现 ， 下 一 场 变 
革 的 帷幕 正在 我 们 的 眼前 拉 开 。 未 来 ， 人 机 交流 不 但 可 以 通过 和 触摸、 肢体 动作 、 声 音 、 表 情 
和 视线 来 实现 ， 甚 至 还 可 以 通过 我 们 的 思想 ! 

我 们 正在 不 断 研发 高 级 传感器 、 系 统 、 运 算 规则 以 及 应 用 程序 ， 以 实现 更 为 生动 自然 的 
互动 体验 。 在 这 个 过 程 中 ， 运 算 装 置 除了 能 够 把 握 交 流 意 图 之 外 ， 还 能 理解 用 户 的 表达 与 情 
感 。 这 些 兴 起 的 界面 技术 和 接 中 而 至 的 新 型 应 用 产品 为 显示 技术 乃至 整个 电子 消费 产业 创造 
了 振奋 人 心 的 机 遇 。 随 着 自然 用 户 界面 的 不 断 整合 ， 显 示 设 备 也 从 以 往 视觉 内 容 的 单 向 显示 
转变 成 了 可 以 接收 用 户 输入 的 双向 互动 ， 这 就 推动 了 交互 应 用 程序 的 开发 和 沉浸 式 体验 的 实 
现 。 触 摸 屏 和 触 控 优 化 界面 以 及 各 类 应 用 产品 的 激增 又 把 这 场 变革 蔓延 到 了 移动 显示 设备 ， 
自然 界面 技术 由 于 其 交互 性 的 强化 而 不 断 延 展 ， 必 然 会 重新 定义 整个 显示 技术 和 显示 系统 的 
维度 。 

本 书 全 面 解析 了 促使 高 度 交 互 显示 与 显示 系统 兴起 的 自然 人 机 界面 技术 与 应 用 。 那 么 什 
么 是 “人 机 交互 式 显 示 ” 呢 ? 我 们 将 其 定义 为 不 仅 可 以 在 屏幕 上 显示 可 视 信 息 ， 还 可 以 感 
知 和 理解 人 类 行为 并 接收 用 户 的 直接 输入 。 一 旦 装配 上 类 似 自然 人 的 感知 和 理解 技术 ， 一 个 
“真实 ”的 人 机 交互 式 显 示 天 就 能 “感受 ”并 探测 到 我 们 的 触摸 , “ 听 到 ”并 回应 我 们 的 声 
音 ,“ 看 到 ”并 辨识 出 我 们 的 面貌 和 表情 , “理解 ”并 阐释 通过 移动 手指 或 其 他 身体 部 位 发 
出 的 胶体 指令 ， 甚 至 能 够 根据 语 境 推理 出 我 们 的 意图 。 

虽然 这 些 目标 看 起 来 非常 远大 ， 但 是 正如 图 1.1 所 示 ， 依 靠 简单 直观 的 自然 人 机 界面 ， 
多 种 形态 因素 和 应 用 系统 加 之 自然 用 户 交 互 技术 已 经 对 市 场 带 来 了 巨大 的 影响 。 本 书 的 讨论 
也 在 不 断 揭示 这 种 影响 ,我 们 在 自然 感知 、 推 理 技 术 、 系 统 整 合 和 应 用 发 展 方面 取得 的 重大 
进步 将 为 人 机 交互 的 全 面 创新 打下 坚实 的 基础 。 





























































































































图 1.1 各 种 形态 的 交互 显示 带 与 应 用 系统 已 经 占据 了 大 片 市 场 ， 如 前 面 例子 所 述 。 
除了 传统 意义 上 对 用 户 显示 视觉 信息 之 外 ,许多 系统 内 的 显示 器 在 直接 人 机 界面 设备 中 
发 挥 着 新 的 作用 


图 1. 2 描述 了 交互 显示 系统 的 通用 功能 模块 及 其 流程 。 用 户 和 显示 系统 的 互动 是 受 各 个 
界面 发 出 的 指令 支配 的 ， 也 就 是 在 开始 和 结束 部 分 显示 的 输入 和 输出 模块 。 输 入 模块 由 一 组 
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传 感 吉 组成， 能够 把 用 户 输入 的 物理 刺激 转 


、 ae oN gis 、 、 输入 : 
换 成 电子 信号 。 而 输出 模块 则 以 物理 刺激 的 以 传感器 接收 用 户 的 输入 指示 ， 把 物理 刺激 (如 蚤 


形式 ， 让 用 户 感知 并 理解 系统 反 向 回应 用 户 hn 
v 











的 行为 。 中 间 的 模块 处 理 必 要 的 信号 并 执行 
运算 功能 以 促进 交流 。 

本 章 首 先 综述 了 人 类 感知 和 理解 的 基本 
原则 ， 特 别 关 注 了 我 们 在 与 物理 世界 的 日 常 
互动 中 部 署 的 机 制 和 流程 。 以 此 为 基础 ， 我 g 
们 随后 概述 了 运用 自然 界面 技术 (包括 触 计算 机 系统 : LT E 
摸 、 声 音 、 视 觉 感知 和 互动 ) 的 人 机 互动 过 | Goa ee 
程 ， 并 简要 梳理 了 史上 最 为 成 功 的 界面 技 
术 。 接 下 来 ,我 们 将 深入 到 每 类 输入 与 互动 v 
的 模 态 细节 ， 对 技术 原理 及 其 在 自然 人 机 界 输出 : 

面 模式 的 应 用 ， 久 及 综合 互动 技术 在 实现 直 | ANE RoE A (ATAI M 

观 的 多 感 观 、 多 模 态 互动 方面 的 作用 进行 深 

ABR. AREA TRE RA ol) 交互 品 示 系统 的 功能 框图 。 MARRS 
技术 发 展现 状 ， 展 望 了 未 来 有 望 实现 的 “ 真 输出 模块 指挥 用 户 与 显示 器 的 互动 ， 而 信和 号 处 理 与 运 
实 ” 的 3D 交互 式 显示 及 其 带 来 的 真实 的 、 算法 则 促进 了 这 些 互 动 的 开展 
沉浸 式 的 互动 体验 。 


1.2 人 类 感知 和 理解 


本 书 伊始 就 提出 实施 人 机 交互 界面 方案 的 最 终 目标 是 让 用 户 获 得 自然 、 本 真 和 沉浸 式 的 
互动 体验 。 虽 然 目 前 技术 的 局 限 性 让 设计 师 和 工程 师 不 得 不 做 出 妥协 ， 仅 能 实现 某 些 特定 产 
品 的 部 分 目标 ， 但 是 我 们 一 直 在 实现 总 体 目 标的 方向 上 取得 进步 。 

这 里 需要 进一步 阐明 一 下 。 所 谓 “ 自 然 ”， 意 思 在 于 运用 我 们 的 自然 机 能 与 机 融 实 现 交 
流 和 互动 。 我 们 运用 多 感官 、 多 模 态 的 界面 方案 来 理解 周转 环境 和 相互 交流 ， 将 包括 声音 、 
表情 、 凝 视 、 手 势 和 上 及 体 语 言 、 触 觉 、 嗅 觉 和 味觉 等 在 内 的 多 模 态 互动 无 颖 衔接 。 如 此， 创 
建 自然 界面 就 能 使 真实 的 生活 体验 融入 人 机 互动 之 中 。 

所 谓 “本 真 ”， 意 指 该 界面 依靠 我 们 多 年 养 成 的 社交 习惯 而 设计 ， 仅 要 求 用 户 使 用 最 少 
的 〈 理 想 是 不 需要 任何 ) 学 习 成 本 就 能 与 机 器 进行 交流 。 

所 谓 “ 沉 浸 式 ”, 是 一 种 真实 世界 与 虚拟 世界 边界 模糊 化 的 体验 ， 其 中 电脑 或 机 器 成 为 
我 们 身体 与 大 脑 的 延续 ， 帮 助 我 们 完成 任务 。 这 是 个 很 高 的 要 求 ， 需 要 几 十 年 的 持续 研发 才 
能 接近 这 些 目标 。 我 们 努力 了 解 生动 逼真 的 人 机 界面 和 交互 方案 ， 就 能 使 我 们 以 史 为 镜 ， 了 
解 人 类 一 一 毕竟 我 们 是 “人 机 互动 ”这 个 词组 的 第 一 个 字 ! 

我 们 人 类 已 经 进化 成 了 高 等 交际 物种 ， 受 助 于 一 个 精干 的 大 脑 和 一 系列 复杂 的 感知 咒 
官 ， 包 括 丰 富 的 视觉 感知 系统 、 听 觉 能 力 、 接 触 敏感 的 皮肤 和 触觉 感知 ， 还 要 算 上 经 过 鼻腔 








信号 处 理 电子 设备 : 
处 理 和 设置 传感器 输出 信号 ， 传 输 至 计算 机 界面 
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和 舌头 传 感 的 气味 和 味道 的 化 学 感知 。 超 过 一 半 的 人 类 大 脑 致力 于 处 理 感知 信号 ， 让 我 们 能 
够 认识 太空 、 生 命 和 周围 的 物体 ， 也 让 我 们 在 自然 、 本 真 的 感知 情境 中 彼此 互动 。 

让 我 们 深入 探讨 一 下 我 们 的 感知 传 感 和 推理 过 程 ， 即 眼睛 和 视觉 感知 过 程 ， 耳 人 条 和 听觉 
感知 过 程 ， 皮 肤 和 触觉 感知 过 程 。 仅 仅 专注 于 这 三 种 感知 模 态 的 一 个 原因 是 我 们 与 物理 世界 
交互 的 实质 过 程 主要 运用 到 这 些 机 制 ， 而 且 我 们 也 将 看 到 ， 这 些 机 制 的 功能 能 够 依靠 高 新 技 
术 在 电子 设备 中 加 以 模仿 ,以 便 设计 和 制造 高 级 互动 显示 器 和 系统 。 在 人 机 交互 中 实现 嗅觉 
和 味觉 机 能 当然 最 好 ， 不 过 还 得 等 技术 进一步 发 展 。 

让 我 们 从 神经 生理 学 角度 探讨 自然 人 机 界面 与 交互 显示 系统 ， 如 图 1. 1 所 示 。 这 个 交互 
过 程 可 以 分 解 为 三 个 主要 过 程 : 感知 ， 理 解 和 辨识 ， 以 及 行为 。 从 人 的 视角 看 ， 感知 过 程 包 
括 : 搜集 显示 带 视 觉 产 出 一 一 通过 光波 介入 人 有 眼 ; 说 话 人 听觉 产 出 一 一 以 声波 形式 介入 人 
耳 ; 感觉 屏幕 的 表面 一 一 通过 用 指 尖 碰 触 。 这 些 感知 传感器 将 物理 刺激 通过 传导 过 程 转换 成 
神经 信号 ， 后 被 传递 到 大 脑 皮层 ， 也 就 是 我 们 能 够 理解 到 “看 ”“ 听 ”和 “ 触 ” 的 发 生 ， 
随后 辨识 与 思考 相继 启动 。 

根据 感知 和 辨识 过 程 的 结果 ， 我 们 将 指令 我 们 的 身体 行为 。 比 如 ， 我 们 把 视线 聚焦 到 显 
示 器 上 想 关 注 的 元 素 上 ， 指 引 手 指 触摸 并 启动 屏幕 上 的 具体 内 容 ， 调 整 我 们 对 声音 产 出 的 听 
觉 注意 力 ， 摆 出 一 个 合适 的 面部 表情 ， 甚 至 用 我 们 的 手指 和 手 来 做 一 个 动作 。 

我 们 首先 综述 一 下 视觉 感知 过 程 。 我 们 仅 关 注 与 随后 讨论 密切 相关 的 操作 交互 显示 噩 的 
内 容 ， 并 把 其 他 更 为 详细 介绍 人 类 感知 "的 读物 介绍 给 有 兴趣 的 读者 。 人 眼 是 人 类 进化 的 
奇迹 ， 特 别 体现 在 其 构造 上 的 极端 复杂 性 ， 功 能 的 有 效 性 及 其 在 连接 感知 世界 与 大 脑 枕 叶 视 
觉 皮层 方面 所 发 挥 的 核心 作用 。 如 图 1. 3 所 示 ， 人 有 眼 和 相机 的 某 些 核心 结构 十 分 相似 ， 都 是 
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初级 视觉 皮层 

图 1.3 Ac: 人 了 眼 解 剖 图 。 右 : 人 的 视觉 系统 使 用 双 目 成 像 方式 。 左 视野 是 由 双 目 的 右 侧 感知 到 
的 ， 并 映射 到 视觉 皮层 内 的 主要 接收 区 域 的 右 半 部 ， 右 视野 则 经 由 男 一 条 路 线 。 观 测 物 与 双眼 的 距离 
是 由 双 目 视差 察觉 的 ， 其 他 的 视觉 线索 还 包括 动态 视差 、 视 差 映 射 和 焦距 等 
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通过 透镜 系统 把 外 景 光源 聚焦 在 眼 部 后 方 的 视网膜 上 成 像 ， 视 网 膜 周 围 含有 称 为 感光 器 的 感 
光 细 胞 。 眼 部 有 两 种 类 型 的 感光 体 ， 即 有 色觉 的 视 锥 细胞 和 无 色觉 的 视 杆 细胞 ， 后 者 能 把 光 
转换 为 神经 信号 。 

这 台 相 机 的 分 辩 率 以 及 和 处 理 器 通信 的 带宽 如 何 呢 ? 视网膜 包含 大 量 的 感光 器 一 一 大 约 
每 只 眼睛 有 800 万 个 视 锥 细胞 和 12000 万 个 视 杆 细胞 一 一 然而 视觉 体系 却 能 够 巧妙 地 发 出 景 
物 在 空间 和 时 间 上 变化 的 信号 ， 而 不 是 由 感光 器 探测 到 的 绝对 光 强 ， 以 保持 眼睛 和 大 脑 的 通 
信和 带宽 降 到 实际 水 平 上 。 

当 我 们 把 目光 投向 一 个 物体 且 图 像 形成 于 视 轴 周 围 的 一 个 相对 较 小 的 区 域 时 ， 中 心 视觉 
的 视 敏 度 是 最 高 的 。 这 是 因为 视 锥 感光 器 最 集中 地 分 布 于 视网膜 内 的 一 个 小 区 域 一 一 中 央 
站， 这 些 感光 器 映射 到 视觉 皮层 内 的 一 个 比 视网膜 其 他 部 分 要 大 的 区 域 。 男 一 个 相机 的 重要 
特质 是 光敏 的 动态 范围 ， 人 有 眼 的 视觉 跨 径 可 达 10 个 数量 级 ， 远 远 超过 了 现代 数码 相机 的 
BJ. 

每 只 眼睛 都 是 一 部 优秀 的 相机 ， 像 这 样 的 相机 我 们 拥有 两 部 。 人 类 的 视觉 系统 包括 3D 
和 深度 理解 能 力 ， 有 着 双 目 成 像 方 式 以 及 其 他 诸如 动态 视差 、 视 差 映 射 和 焦距 等 视觉 线索 ， 
这 些 能 让 我 们 在 3D 空间 内 十 分 轻松 地 找到 方向 并 于 各 种 物 像 交互 。 双 目 成 像 已 经 普遍 演化 
成 大 多 数 生 物 系统 的 特征 。 近 期 的 化 石 研究 论证 其 早 在 5 亿 多 年 前 节肢 动物 生活 的 早 寒 武 纪 
时 代 就 已 经 存在 '?] 。 强 大 的 视觉 系统 的 出 现 被 认为 是 引发 寒 武 纪 大 爆炸 变革 的 导火线 0 。 
部 分 重 三 的 横向 位 移 视 野 导 致 了 “ 双 目 视差 ”， 也 就 是 由 单眼 捕捉 到 物体 相对 于 另 一 只 眼睛 
发 生 了 横向 位 移 。 我 们 随后 将 会 了 解 到 ， 双 目 视差 与 观测 物 到 观察 人 的 距离 成 反比 。 

有 这 样 的 视觉 系统 帮助 理解 距离 ， 猿 物 就 更 容易 发 现 逼 近 的 猎人 而 逃生 ， 猎 人 也 有 更 好 
的 时 机 三 角 测 距 猎物 的 位 置 并 实施 捕猎 。 双 目 视觉 因此 被 推定 为 生物 进化 成 功 的 推动 力 ， 也 
是 最 早 的 哺乳 动物 的 特质 之 一 。 时 至 现代 ， 我 们 运用 我 们 复杂 的 双 目 视觉 系统 来 与 3D 世界 
互动 。 图 1.3 也 简化 地 展示 了 将 眼睛 连接 到 视觉 皮质 的 感觉 传导 路 径 。 

接着 ， 我 们 来 思考 一 下 听力 感知 的 重要 元 素 ， 包 括 耳 汞 和 各 个 听 辨 过程 。 恰 如 眼睛 ， 人 
的 耳 东 也 有 着 精致 的 构造 以 及 像 声音 传感器 这 样 令 人 惊叹 的 功能 。 我 们 天 然 的 麦克 风 一 一 耳 
能 够 感知 超过 12 个 数量 级 的 声音 强度 以 及 3 个 数量 级 的 音频 (20 ~20000Hz) ! 

如 图 1.4 所 示 ， 耳 廊 决 定 了 气流 携带 声音 信号 进入 含有 耳 鼓 膜 的 耳 道 的 方向 。 压 力 振荡 
经 由 中 耳 组 织 一 一 锤 耳 、 砧 骨 和 锐 骨 得 以 放大 ， 这 些 部 位 是 人 体 拥有 的 最 小 骨头 ， 英 文中 可 
分 别 用 意 为 锤子 (hammer) 、 铁 砧 (anvil) FUSE (stirrup) 的 单词 表示 ， 暗 指 它们 是 如 何 
放大 并 向 内 耳 部 分 传递 声音 信号 的 。 最 后 ， 振 荡 声 波 被 转 经 由 神经 冲劲 转换 成 神经 信号 ， 更 
具体 地 说 是 由 位 于 呈 收 敛 螺旋 状 的 耳 廊 部 位 的 听 毛 细胞 转换 的 。 这 些 神经 信号 随后 发 射 到 位 
于 杜 叶 的 大 脑 听 觉 皮层 并 被 处 理 成 能 够 感知 的 信号。 

正如 人 眼 一 样 ， 我 们 还 有 一 对 能 在 频率 信号 之 外 启动 双 声 道 感知 方案 的 天 然 “麦克 
风 ”， 它 可 以 在 3D 空间 内 准确 定位 声音 的 来 源 。 双 耳 3D 感知 以 及 极 高 的 声 压 灵 敏 度 对 我 们 
的 进化 过 程 十 分 重要 ， 在 日 常生 活 中 ， 它 也 对 帮助 我 们 在 3D 物理 世界 的 穿梭 和 交流 起 到 了 
不 可 或 缺 的 作用 。 图 1.4 简单 展现 了 位 于 人 耳 与 大 脑 听觉 皮层 之 间 的 神经 分 布 路 径 。 
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图 1.4 人 耳 和 双 声 道 构 造 的 解剖 图 ， 简 化 地 描绘 了 位 于 内 耳 耳 蜗 和 大 脑 标 时 内 的 听觉 

皮层 之 间 的 神经 分 布 路 径 。 双 耳 信 号 以 及 频率 信号 被 用 来 定位 声音 信号 的 来 源 

最 后 ， 我 们 再 看 看 触 敏 性 和 触觉 感知 过 程 。 触 觉 的 感知 过 程 又 称 皮 肤 感 知 ， 开 始 于 皮肤 
内 的 机 械 性 感受 器 ， 它 们 能 够 在 相应 的 皮肤 区 域 感受 到 因 接 触 而 产生 的 机 械 压 力 。 图 1.5 H 
绘 了 4 种 主要 的 机 械 性 感受 器 。 视 觉 (眼睛 ) 和 听觉 (ER) 感知 絮 官 位 于 颅骨 内 ， 具 有 
离 大 脑 皮层 相对 较 短 的 神经 生理 路 径 ， 而 触觉 感知 器 官 (皮肤 ) 却 履 盖 了 整个 身体 。 因 此 ， 
来 自 触觉 接收 器 的 信和 号 常常 需要 经 过 较 长 的 距离 (比如 从 手指 到 头 部 ) 。 兰 舌 对 触觉 感受 器 
来 说 就 起 到 了 “信息 高 速 公路 ”的 作用 ,把 从 接收 器 获得 的 信号 传递 到 顶 叶 内 的 大 脑 体 觉 
皮层 一 一 这 部 分 大 脑 位 于 处 理 触觉 过 程 的 头 部 顶端 区 域 。 

神经 外 科 医 生 Wilder Penfield 在 20 世纪 50 年 代 关 于 触觉 敏感 的 重大 发 现 已 经 证 明了 人 
体 邻 近 部 位 对 大 脑 皮 层 邻 近 区 域 的 映射 i。 更 有 意思 的 是 ， 这 项 映射 研究 确立 了 作用 于 身 
体 各 个 部 分 的 大 脑 体 觉 皮 层 的 相对 比例 。 图 1.5 所 示 的 “皮层 矮人 ” (cortical homunculus) 
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1.5 Æ: 人 体 皮肤 的 解剖 图 。 所 示 的 主要 四 种 类 型 的 机 械 性 感受 器 将 触 磁 刺 激 产 生 的 机 械 压 力 转 
变 成 神经 信号 。 右 : 矮人 皮层 理论 ,由 Wilder Penfield 首次 提出 ， 后 续 学 者 陆续 完善 ， 揭 示 了 体 觉 皮层 处 
理 来 自身 体 各 个 部 分 的 触觉 信号 的 位 置 和 相对 比例 。 来 源 : http: //www. intropsych. com/ch02_ human_ 
nervous_ system/homunculus. html ， 转 载 获得 R. Dewey 的 许可 
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的 概念 就 是 该 理论 的 集中 体现 。 别 错 以 为 这 只 是 幅 随 意 的 讽刺 漫画 ， 其 实 这 个 矮人 图 呈现 了 
一 个 人 体 各 部 分 所 占 大 脑 体 觉 皮层 的 相对 空间 的 比例 模型 。 如 图 所 示 ， 该 皮层 组 织 致力 于 处 
理 来 自 手 指 碰 触 的 信号 远 超过 其 处 理 来 自 整 个 手臂 和 手腕 ， 这 恰恰 证 明了 触摸 屏 用 户 界面 设 
计 师 期 望 大量 运 用 手指 来 实现 触 控 式 人 机 交互 的 合理 性 ! 

正如 前 面 讨论 过 的 ， 神 经 生理 学 对 我 们 的 感知 过 程 有 一 个 普遍 的 解释 。 感 知 系统 的 设计 
十 分 巧妙 ， 绝 大 部 分 的 大 脑 皮 层 组 织 与 感知 接收 顺 最 重要 的 部 分 是 相连 的 。 比 如 ， 视 网 膜 中 
央 四 与 中 心 视力 ， 耳 蜗 听 毛细 胞 与 昕 觉 ， 手指 尖 与 触觉 等 。 虽然 我 们 也 拥有 其 他 感觉 机 制 ， 
但 是 在 与 周围 物理 世界 的 交互 中 ,我们 更 主要 依靠 的 是 看 、 听 和 碰 触 。 因 此 本 书 主 要 关注 眼 
睛 、 耳 东 和 触感 作为 自然 人 与 显示 噩 设 备 交 流 的 主要 模 态 。 

相 比 起 生物 系统 ， 当 今 大 多 数 的 计算 和 娱乐 设备 具有 非常 初级 的 感知 和 处 理 能 力 。 就 手 
机 、 平 板 电脑 和 笔记 本 电脑 来 看 ， 它 们 是 典型 的 “单眼 ”工作 〈 仅 有 一 个 相机 ) ， 就 像 硕 腊 
神话 中 的 独眼 巨人 库 克 罗 普 斯 一 样 。 此 外 ， 它 们 大 多 数 是 单 耳 结 构 ( 仅 有 一 个 麦克 风 ) ， 还 
有 许多 尚未 实现 触 敏 〈 触 摸 屏 ) ， 尤 其 是 笔记 本 电脑 。 

但 随 着 拉 术 在 多 方面 的 迅猛 发 展 ， 这 一 情况 将 有 望 在 不 远 的 未 来 得 到 改善 。 向 自然 和 人 
类 世界 学 习 ， 工程师 和 设计 师 现 在 已 经 开始 对 计算 和 通信 设备 加 入 “类 人 ”的 感触 和 感知 
属性 ， 让 它们 能 够 “看 ”“ 听 ”和 “理解 ”人 类 行为 和 指示 ， 并 发 挥 这 些 功 能 以 促进 自然 
的 、 本 真 的 互动 。 这 些 发 展 保证 了 人 机 交互 实现 超越 键盘 、 鼠 标 、 操 纵 杆 和 远程 遥控 的 突 
破 ， 并 允许 基于 碰 触 、 视 觉 与 言语 感知 和 识别 技术 的 自然 交互 的 使 用 。 

尽管 现实 中 我 们 每 时 每 刻 感知 和 洞察 周围 世界 是 那样 的 自然 和 随意 ,但 是 只 有 我 们 尝试 
在 机 融 中 实施 这 些 感 知 功能 的 时 候 才 能 理解 这 些 任务 的 复杂 性 。 在 下 一 节 ， 我 们 将 综述 人 机 
界面 与 电子 设备 的 重要 技术 ， 包 括 最 近 几 十 年 广泛 采用 的 技术 先例 以 及 新 近 实 现 的 与 显示 顺 
和 系统 交互 的 自然 本 真 模 态 。 


1.3 AMABRA 

































































1.3.1 过 往 的 输入 装置 


在 深入 讨论 最 新 自然 界面 技术 和 由 其 推动 的 应 用 与 用 户 体验 之 前 ， 很 有 必要 回顾 一 下 历 
史 ， 思 考 一 下 最 成 功 的 用 户 输出 技术 的 发 展 。 最 近 几 十 年 间 ， 随 着 我 们 在 生活 中 的 实践 和 接 
触 ， 该 技术 已 经 成 为 人 机 交互 技术 的 核心 支柱 。 我 们 无 意 对 人 机 界面 技术 及 其 相关 的 历史 发 
展 进 行 完 整 记述 ， 想 要 在 有 限 的 音节 内 完成 这 项 任务 也 不 可 能 。 我 们 现在 能 做 的 是 把 过 去 出 
版 的 许多 综述 文献 介绍 给 有 兴趣 的 读者 53 -5] 。 

以 下 我 们 简 述 几 项 已 被 大 众 采 纳 的 创新 发 明和 主流 产品 ， 它 们 定义 了 时 至 当代 的 人 机 交 
互 的 主要 方式 。 回 首 过 往 ， 我 们 感谢 它们 取得 成 功 的 重要 因素 一 一 简易 的 技术 应 用 ， 以 最 适 
度 的 价格 使 用 最 优 的 现 有 技术 元 素 ， 尤 其 是 应 用 某 项 发 明 来 满足 用 户 对 丰 寅 个 人 生活 和 各 项 
活动 的 需求 。 
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首先 ， 无 处 不 在 的 遥控 装置 可 以 说 定义 了 我 们 与 电视 荧屏 的 交互 关系 并 塑造 了 我 们 的 内 
容 浏览 行为 。 尽 管 远程 遥 控 的 概念 早 在 1898 年 就 由 Nikola Teslat1s1 提 出 ， 第 一 个 电视 机 倘 
控 器 却 是 由 Zenith 无 线 电 公 司 于 1950 年 开发 并 投入 市 场 的 ， 并 形象 地 将 遥控 器 命名 为 “ 懒 
骨头 [7] 。 

电视 机 自 20 世纪 20 年 代 起 就 已 经 风靡 市 场 ， 但 那 时 人 们 需要 走 到 它 跟前 来 调整 控制 旋 

， 尽 管 自然 的 观看 姿势 就 是 坐 在 它 面前 的 沙发 上 。 因 此 ， 当 时 的 环境 对 发 明 远程 遥控 来 说 
peri 而 且 技术 水 准 也 已 经 到 位 。Zenith H “HSL” FERAS EAN 
机 之 间 是 有 长 线 相连 的 。 虽 然 这 解决 了 人 们 的 合理 需求 ， 使 人 们 不 离开 沙发 就 能 换 频道 ， 但 
避免 不 小 心 被 电线 绊 倒 的 需求 还 是 指向 了 无 线 遥 控 的 发 明 。 

到 了 1955 年 ， 也 是 由 Zenith 生 NEW 
产 的 “闪光 助手 ” (Flash - matic) [a] MIRACLE WAY 
记 。 通 过 光束 指向 分 布 在 电视 机 屏幕 TO TUNE TV 
四 角 的 感应 器 ， 用 户 就 能 使 用 这 款 肥 【ROM YOUR EASY CHAIR 


控 器 实现 无 线 控制 。 这 种 激动 的 心情 ee 
可 以 从 宣传 当日 的 杂志 广告 中 体会 : A. 

“不 得 不 让 你 眼见 为 实 !” 虽 然 兴 奋 难 
抑 ， 但 是 这 款 光 控 设备 并 不 能 在 光亮 
的 房间 内 很 好 地 发 挥 作用 ， 因 为 外 界 
的 光线 会 偶尔 改变 设置 。Zenith 把 下 
一 代 的 设备 更 换 成 了 超声 波 作为 远程 国明 
通信 媒介 ， 并 命名 其 为 “太空 司令 ”， 国 
这 才 解 决 了 问题 。 一 则 1957 年 的 广 
告 ( 见 图 1.6) 振 振 有 词 地 宣扬 了 这 
款 “ 坐 享 舒适 沙发 ， 无 声 遥 控 电 视 ” 远程 遥控 电视 机 
的 神奇 体验 。 

此 后 的 现代 遥控 技术 发 展 更 是 日 
新 月 异 ， 产 品 不 仅 融入 了 各 种 时 尚 精 
巧 的 形状 元 素 ， 还 安装 了 红外 光 以 遥控 娱乐 装置 。 近 几 年 还 不 断 新 添 了 动作 感应 和 声音 控制 
技术 等 特征 。 

接 下 来 ， 我 们 再 回 到 Douglas Engelbart 发 明 电脑 鼠标 的 1963 年 ， 这 是 标志 着 人 机 交互 新 
纪元 的 开始 之 年 。 在 发 明和 装配 鼠标 之 前 ， 早 期 电脑 输入 局 限于 基于 文本 的 键盘 敲 击 指令 。 
图 1.7 展现 了 第 一 个 由 Engelbart 和 Bill English 构建 的 鼠标 原型 。 鼠 标 由 两 个 在 互 为 直角 方 
向 上 滚动 的 滑轮 组 成 ， 随 着 鼠标 在 平面 拖 动 ， 两 个 滑轮 能 跟踪 鼠标 在 2D 平面 上 的 位 置 0] 。 
Engelbart 在 1961 年 设想 到 该 装置 时 正在 参加 一 个 电脑 作 图 会 议 ， 思 考 着 如 何 外 6 构建 一 个 能 
与 电脑 绘图 对 象 简易 高 效 互动 的 系统 1”] 。 

值得 注意 的 是 ， 鼠 标 仅仅 是 Engelbart 和 他 的 斯 坦 福 研究 学 院 团队 发 明 的 众多 电脑 输入 
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o I: www. tvhistory. tv (已 取得 引用 许可 ) 
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设备 之 一 ， 不 过 它 却 是 最 成 功 的 一 项 。 虽 然 现在 的 版 本 以 镭射 光 替 代 了 滚轮 ， 以 无 线 传输 替 
代 了 传统 数据 线 ， 但 我 们 还 是 习惯 地 称 之 为 “鼠标 ”， 因 为 最 初 命名 时 想到 它 连 接 电脑 的 线 
与 老鼠 的 尾巴 一 样 。 鼠 标 连 同 图 形 用 户 界面 使 用 户 操作 计算 系统 更 便捷 ， 这 使 其 在 近 几 十 年 
与 快速 推广 的 个 人 电脑 一 样 变 得 无 处 不 在 。 








图 1.7 Æ: 第 一 只 由 Douglas Engelbart 和 Bill English 于 1963 年 开发 的 电脑 鼠标 。 右 : 为 实现 和 用 
户 互动 而 设计 的 一 台 配 备 有 原始 鼠标 的 电脑 工作 站 。 来 源 ，SRI 国际 (已 取得 引用 许可 ) 


这 些 早期 人 机 界面 设备 的 “遗产 ”对 其 相应 的 主 控 系统 的 发 展 影响 巨大 。 随 着 电视 机 
成 为 全 世界 家 庭 娱 乐 的 核心 设备 ， 个 人 电脑 成 为 提高 生产 力 和 获取 信息 的 首要 工具 ， 遥 控 器 
和 鼠标 也 随 之 成 为 了 我 们 必 不 可 少 的 伴侣 。 但 是 ， 虽 然 它 们 在 近 几 十 年 内 使 用 广泛 ， 人 机 界 
面 和 互动 的 格局 仍然 十 分 有 限 ， 是 时 候 要 展望 未 来 了 。 接 下 来 我 们 会 谈论 到 ， 最 近 在 新 传 感 
器 技术 、 推 理 演算 法 、 计 算 资 源 以 及 系统 整合 等 领域 的 发 展 让 我 们 感受 到 了 通过 自然 人 机 界 
面 与 电子 装置 和 系统 互动 的 可 能 。 现 在 我 们 就 来 看 看 用 户 基于 触 磁 、 声 音 、 视 觉 和 多 模 态 交 
互 拉 术 实 现 的 自然 界面 输入 。 


1.3.2 触 控 式 交 互 技术 


显示 器 从 仅 向 用 户 输出 可 视 信 息 到 成 为 一 
种 交互 界面 装置 主要 归 因 于 和 触 控 功 能 与 显示 需 
的 一 体 化 模式 ， 尤 其 是 其 在 移动 通信 装置 上 的 
使 用 。 从 1965 年 第 一 份 由 Johnson 撰写 的 电容 
触摸 屏 报告 '"*! 至 今 ， 该 技术 及 其 应 用 已 经 经 
历 了 几 十 年 的 发 展 ， 并 成 为 了 全 球 主流 消费 品 。 

“触摸 屏 ” 由 Johnson 发 明 ， 是 一 台 由 电容 
覆盖 的 阴极 射线 管 显示 器 ， 如 图 1.8 所 示 。 `. 
Johnson 是 一 名 英格兰 皇家 雷达 研究 所 (Royal 图 1.8 第 款 运 ] 电 容 技术 感应 的 “ 触 控 
Radar Establishment) 的 工程 师 ， 该 项 技术 主要 显示 器 ” 的 存 照 ， 由 E. A. Johnson 于 1965 年 报 
用 于 航空 交通 控制 系统 。 他 所 做 的 论文 摘要 介 告 。 来 源 : www. history - computer. com ， 转 载 已 
绍 到 :“ 该 “和 触摸屏” 装置 提供 了 高 效 的 人 机 联 经 获得 许可 
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结 。” 尽 管 这 番 陈 述 只 是 针对 自己 的 发 明 ， 他 还 是 深刻 地 预见 到 了 这 些 设备 几 十 年 后 的 未 
来 ， 即 将 被 大 众 广泛 使 用 。 

虽然 鼠标 和 遥控 装置 风靡 多 年 ， 但 使 用 这 些 设备 与 显示 屏 互动 仍然 是 一 个 “间接 ”的 
操纵 体验 。 另 一 方面 ， 触 敏 显 示 的 引进 能 让 人 们 仅 通过 触摸 就 能 “直接 ”与 屏幕 内 容 互动 ， 
让 人 们 不 用 或 仅 用 很 少 的 训练 就 能 有 更 为 方便 和 本 真 的 体验 。 近 些 年 来 ， 由 于 触摸 屏 手机 、 
平板 电脑 、 超 级 本 、 多 合 一 桌面 电脑 以 及 各 种 形式 的 信息 资讯 站 的 普及 ,触摸 屏 技 术 及 其 商 
业 化 部 署 一 直 在 迅速 发 展 。 事 实 上 ， 触 模 屏 技术 和 触 控 便 捷 软 件 界面 的 无 颖 衔接 已 经 催生 了 
新 一 批 高 级 交互 应 用 设备 ， 这 使 得 用 户 的 使 用 体验 发 生 了 巨大 的 变化 。 

有 很 多 不 同 的 技术 方法 能 够 探测 对 显示 设备 的 触 碰 [2]。 在 第 2 BE, Walker 对 各 类 交互 
显示 触 控 技术 进行 了 深度 的 综述 。 下 一 章 我 们 会 详细 阐述 ， 显 示 屏 表面 感触 方位 的 方法 可 以 
主要 分 为 电容 式 、 电 阻 式 、 声 学 和 光学 技术 。 

运用 电容 技术 方面 ， 图 像 显示 屏 的 表面 或 内 部 有 一 个 用 来 存储 电荷 的 夹层。 其 中 一 种 应 
用 叫 交互 电容 法 ， 是 指 用 户 在 磁 触 显示 屏 任意 位 置 时 ， 有 一 部 分 电荷 转移 到 了 用 户 身上 ， 导 
致 了 原来 位 置 的 电荷 存量 减少 。 另 一 种 应 用 叫 自 电容 法 ， 指 人 体 部 位 碰 触 显示 屏 时 增加 了 相 
对 于 地 面 的 单一 电极 电容 。 触 控 夹 层 中 的 用 来 侦 测 这 些 变化 的 电路 能 够 识别 碰 触 部 位 并 向 软 
件 操作 系统 、 应 用 程序 及 用 户 界面 提供 该 信息 。 

电阻 式 触 控 方 面 ， 当 用 户 通 过 和 触 碰 屏幕 上 的 某 个 位 置 而 施加 一 定 的 机 械 力 时 ， 两 层 间 隔 
距离 较 小 的 光 透 传导 表面 受 压 后 逐渐 靠近 。 该 位 置 的 坐标 数据 由 电压 测量 值 决 定 ， 并 传输 给 
软件 进行 处 理 。 

声学 和 光学 技术 分 别 包 括 测量 由 于 用 户 触 屏 而 产生 的 超声 波 和 红外 光波 的 变化 值 。 具 体 
的 系统 实现 大 不 相同 ， 全 世界 很 多 公司 都 在 开发 研制 这 类 产品 。 

本 章 涵 盖 的 具体 技术 包括 投射 电容 、 模 拟 电阻 、 表 面 电容 、 表 面 声波 、 红 外 线 、 摄 像 光 
学 、 内 艇 式 整 合 、 弯 曲 波 、 压 力 传 感 、 平 面 散射 探测 、 视 觉 传 感 、 电 磁 共 振 和 这 些 技术 的 综 
合 。Walker 论述 了 这 些 技术 的 运行 原则 、 关 联系 统 结构 和 整合 方法 、 各 方法 的 优 缺 点 、 历 
史 发 展 、 产 业 动 态 ， 以 及 上 述 触 控 技 术 的 未 来 趋势 ， 包 括 对 显示 屏 内 不 同 层级 触 控 功能 集成 
的 阐述 。 如 今 市 场 上 已 经 在 显示 模块 运用 了 触摸 屏 的 设备 随处 可 见 ， 但 近期 问世 的 商业 产品 
还 是 证 明了 无 需 独 立 触摸 屏 接 入 的 触 敏 集成 显示 面板 更 能 够 减少 设备 的 厚度 、 重 量 、 集 成 复 
杂 性 和 成 本 。 第 2 章 就 详细 介绍 了 这 样 的 “ 构 入 式 触 控 ” 技 术 。 

在 交互 显示 和 系统 中 引入 触 碰 输 入 模式 给 市 场 带 来 了 深远 的 影响 。 让 我 们 快速 浏览 一 下 市 
场 规模 ， 品 味 一 下 触摸 屏 技 术 留 下 的 痕迹 : 整个 产业 每 年 产 出 超过 10 亿 件 触摸 屏 产品 。 尽 管 
这 些 大 多 数 是 移动 装置 ， 触 摸 屏 技术 已 经 广泛 地 应 用 到 各 种 形态 的 设备 中 。 主 流 显示 器 安装 触 
摸 屏 输 入 功能 不 过 是 时 间 的 问题 而 已 ， 特 别 是 那些 需要 与 用 户 实现 近 距 离 互动 的 设备 。 


1.3.3 声控 交互 


可 以 说 人 与 人 之 间 最 有 效 也 是 最 普遍 的 交互 形式 是 有 声 语 言 。 要 了 解 这 一 点 ， 只 需要 做 
一 个 “思考 实验 ”。 假 想 你 是 一 个 特 立 独行 的 世界 探险 家 ， 罕 然 发 现 目 己 不 但 无 法 理解 所 到 
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之 处 的 人 际 交谈 ， 目 己 的 话语 也 让 别人 感到 不 知 所 云 ! 有 声 语言 交流 始终 都 是 现代 人 类 文明 
发 展 和 社会 交融 的 根本 动力 。 有 证 据 显 示 ， 学 术 界 和 企业 界 均 对 使 用 声音 输入 、 处 理 和 输出 
的 人 机 界面 的 发 展 有 着 浓厚 的 兴趣 并 付出 了 巨大 的 努力 3]。 

虽然 我 们 可 以 毫 不 费力 地 表达 和 理解 他 人 的 话语 (大 多 数 情 况 下 ) ,但 是 让 一 台 计 算 机 
具备 人 类 拥有 的 对 有 声 语言 的 理解 能 力 绝 非 易 事 一 一 我 们 为 了 这 个 目标 已 经 奋斗 了 一 个 世 
纪 。 扫 一 眼 图 1.9 就 可 以 迅速 了 解 到 这 个 挑战 。 图 中 特别 展现 了 发 声 短语 “mining a year of 
speech( 挖 据 一 年 的 语音 数据 )” 的 语言 波形 记录 。 我 们 在 说 话 的 时 候 会 不 均匀 地 断 句 或 使 
用 短 间 隔 ， 这 会 生成 一 连 串 没有 间隔 的 听觉 信号 ， 或 者 我 们 根本 就 察觉 不 到 声音 中 的 间隔 在 
哪 ! 我 们 也 经 常 在 对 话 中 使 用 一 些 不 完整 的 句子， 把 并 无 意义 的 词语 安插 在 句 段 之 间 ， 为 断 
开 的 意 群 “ 搭 上 桥 ”。 概 括 地 说 ,语音 识别 算法 的 任务 就 是 要 把 有 声 话语 转换 成 一 系列 文 
本 ， 并 摘 取 该 文本 表达 的 含义 。 声 控 交 互 界面 发 挥 了 这 些 功 能 来 在 用 户 和 设备 间 构 建 一 个 声 
音 互 动 方案 。 
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图 1.9 发 声 短语 “mining a year of speech” 的 声波 波形 ， 指 出 了 在 话语 和 非 直观 声波 信 
号 间隙 中 非 均匀 分 布 的 短 时 空间 。 横 轴 标 注 的 是 以 s 为 单位 的 时 间 ， 纵 轴 显 示 的 是 任意 单位 
的 信号 强度 。 来 源 : http: //www. phon. ox. ac. uk/mining_ speech/ ， 转 载 获 得 John Coleman 的 
许可 











自从 20 世纪 二 三 十 年 代 由 Harvey Fletcher 和 Homer Dudley 在 贝尔 实验 室 进 行 的 人 类 语 
音 建 模 与 合成 的 开创 性 尝试 开始 ‘4*'51， 自 动 语音 识别 研究 一 直 在 过 去 的 几 十 年 间 稳步 发 展 ， 
特别 是 在 20 世纪 80 年 代 语 音 建 模 的 统计 算法 的 创立 ， 以 及 近期 在 自然 语言 理解 方面 所 取得 
的 进步 尤为 引 人 注 目 。 在 1968 年 问世 的 史诗 科幻 电影 《太空 漫游 》 (A Space Odyssey) 中 ， 
编剧 Stanley Kubrick 和 Arthur C. Clarke 预见 的 HAL9000 一 一 一 台 将 在 20 世纪 90 年 代 诞 生 的 
电脑 一 一 可 以 流畅 自如 地 和 人 类 进行 语音 对 话 。 虽 然 我 们 尚未 实现 HAL 所 具备 的 所 有 神奇 
功能 ， 最 近 在 声音 界面 和 交互 领域 的 突破 还 是 创造 了 很 大 的 商业 价值 ， 并 催生 出 越 来 越 多 的 
在 移动 装置 、 计 算 机 工作 站 和 汽车 中 使 用 的 应 用 程序 。 

在 多 数 情况 下 ,计算 机 装置 的 声控 界面 会 生成 简单 自然 的 人 机 互动 。 比 如 ,， 一句 简单 的 
语言 命令 “播放 [KA] 这 首 歌 ”就 能 让 装置 迅速 地 从 服务 器 存储 的 许多 歌曲 中 挑选 出 来 
并 开始 播放 。 同 样 的 ， 一道 命 令 “ 把 这 张 照片 放 到 我 的 脸谱 网 (Facebook) 主页 上 ”就 能 
够 马上 上 传 用 户 使 用 智能 手机 拍摄 到 的 画面 ， 或 是 从 之 前 存储 好 的 相册 中 选 出 来 。“ 播 放 昨 
晚 保存 的 温 布尔 登 网 球赛 ” 则 能 在 媒体 存储 器 中 找到 相应 的 网 球 比 赛 ， 并 开始 在 电视 机 荧 
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屏 上 播放 。 说 一 句 “ 指 给 我 去 SFO 的 方向 ”就 能 显示 出 前 往 圣 弗朗西斯 科 国 际 机 场 的 路 线 
RAURA H 

用 传统 的 界面 完成 这 些 任务 需要 浏览 大 量 的 命令 窗口 、 输 入 文本 以 及 项 击 许多 按键 。 然 
而 通过 语音 命令 完成 相同 的 任务 则 会 从 根本 上 变 得 更 简洁 、 更 迅速 ， 只 要 该 设备 能 够 按 要 求 
准确 地 理解 并 处 理 在 真实 场景 中 使 用 的 语音 命令 和 指示 。 

拥有 自然 语言 理解 和 语音 合成 功能 的 语音 识别 技术 保证 了 电脑 、 通 信 、 娱 乐 和 许多 其 他 
电子 设备 以 及 系统 的 大 规模 推广 。 当 我 们 的 双手 和 双眼 忙于 类 似 亮 饪 、 驾 驶 、 购 物 、 园 艺 和 
锻炼 等 事务 时 ， 不 妨 使 用 语音 识别 来 操作 相关 设备 。 它 还 有 可 能 使 许多 残障 人 士 能 够 进行 电 
脑 操 作 。 

下 面 将 会 阐述 ， 声 控 交 互 在 与 其 他 交互 途径 联 用 时 功效 特别 强大 ， 比 如 手势 或 凝视 追 
踪 。 未 来 的 计算 机 将 无 孔 不 入 ， 那 时 的 感知 和 推理 技术 将 全 方位 融入 我 们 的 生活 一 一 衣食 住 
行 、 工 作 娱乐 等 方方面面 ， 而 基于 有 声 语 言 的 互动 将 起 到 至 关 重 要 的 作用 。 目 前 ， 从 交互 显 
示 的 观点 来 说 ， 声 音 界面 似乎 可 以 使 我 们 更 简单 地 与 各 种 形态 的 显示 顺 交 互 ， 从 而 获得 更 为 
本 真 的 体验 。 

第 3 章 中 ，Breen 等 人 深度 综述 了 声控 用 户 界面 的 基本 原理 和 发 展 。 几 位 学 者 就 语音 界 
面 的 重要 元 素 展开 讨论 ， 包 括 语音 识别 、 自 然 和 对 话语 言 理解 技术 、 对 话 管理 、 语 音 合成 、 
高 效 语音 处 理 的 硬件 及 系统 结构 优化 ， 以 及 应 用 众多 的 交互 设备 和 系统 的 程序 等 。 


1.3.4 WEZH 


我 们 在 1. 2 节 已 经 讨论 过 ， 视 觉 感知 ， 更 确切 地 说 是 目测 和 理解 3D 环境 的 能 力 ， 是 一 
种 能 够 使 我 们 在 物理 世界 中 畅行 、 与 他 人 交流 的 必 备 素质 。2D 相机 和 成 像 应 用 现在 已 经 是 
计算 和 娱乐 设备 中 必 不 可 少 的 组 成 部 分 ， 特 别 是 在 手机 、 平 板 电脑 和 笔记 本 电脑 中 ， 该 技术 
还 越 来 越 多 地 应 用 在 一 体 化 的 桌面 电脑 和 高 端 巨 屏 电视 机 中 。 
目前 ， 集 成 在 手机 里 的 2D 相机 的 主要 应 用 是 拍摄 数码 静止 照片 和 录像 ， 而 那些 在 大 型 
设备 和 显示 器 里 的 相机 则 主要 用 于 视频 会 议 应 用 。 电 脑 视觉 研究 人 员 已 经 开发 了 能 够 探测 、 
追踪 和 识别 面部 和 表情 、 理 解 动 作 和 简单 手势 的 2D 图 像 处 理 算法 [2 -21 

传统 2D 相机 拍 下 3D 世界 的 影像 并 将 其 投射 在 2D 平面 图 中 ， 售 弃 了 许多 置身 3D 空间 
的 视觉 信息 细节 。 

科学 家 已 经 花费 了 巨大 的 科研 精力 研究 如 何 把 单一 的 2D 图 像 复 原 成 3D 信息 的 过 程 ， 
以 更 好 地 理解 人 类 动作 。 从 2D 投射 中 重 构 3D 空间 信息 是 一 个 有 着 内 在 歧 解 的 病态 问题 ， 
即便 对 架 起 一 个 已 知 的 结构 (如 人 体 ) 来 说 也 是 一 个 挑战 ， 很 多 有 前 景 的 研究 结果 只 是 非 
常 有 限 地 使 用 在 了 实践 中 3- 。 这 些 方法 总 的 来 说 需要 电脑 的 密切 配合 和 人 工 输入 ， 因 此 
对 需要 实时 独立 分 析 3D 环境 和 人 体 动作 的 交互 应 用 程序 来 说 并 不 适合 。 

相 比 之 下 ， 人 类 视觉 系统 的 3D 成 像 工 艺 流程 可 以 捕捉 并 使 用 3D 视觉 信息 ， 推 进 高 效 
稳健 的 认 知 和 互动 。 增 加 实时 3D 视觉 传 感 功能 可 以 实现 真正 交互 式 的 、 理 解 用 户 的 系统 显 
示 和 丰富 的 自然 用 户 交 互 。 这 些 功 能 包括 在 显示 器 前 使 用 实时 3D 图 像 传 感 技术 来 拍摄 3D 
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景象 ; 在 3D 空间 内 用 电脑 视觉 算法 来 理解 3D 图 像 和 实时 用 户 活动 ; 调试 用 户 界面 ,使 其 
能 够 本 能 地 执行 人 类 任务 、 指 示 智 能 系统 和 回应 命令 。 

视 控 姿势 识别 是 全 世界 正在 兴起 的 一 个 研究 和 开发 领域 ， 学 术 界 和 业界 的 实验 报告 都 反 
映 了 该 领域 快速 发 展 的 技术 ， 揭 示 了 基于 人 类 动作 行为 研究 的 多 层次 交互 过 程 的 分 类 和 实践 
RELO -5 。 第 4 章 是 对 视 控 交互 方法 的 综述 ， 包 括 3D 传 感 和 肢体 动作 识别 技术 ， 说 明 
了 在 人 机 交互 应 用 中 使 用 这 些 技术 的 现状 和 对 未 来 的 展望 。 

基于 3D 传 感 装置 的 系统 和 应 用 已 经 在 市 场 上 出 现 ， 较 传统 2D 成 像 技 术 ， 它们 为 用 户 
带 来 了 更 为 丰富 和 稳健 的 互动 体验 13637] 。 这 些 初 期 的 市 场 成 功 有 力 地 推动 了 3D 视觉 技术 
在 未 来 更 多 设备 系统 中 的 使 用 ， 也 使 得 3D 用 户 交互 更 为 普及 。 实 时 3D 图 像 技 术 在 电子 设 
备 中 的 应 用 实现 了 显示 器 前 微观 用 户 交 互 和 3D 空间 内 的 目标 操纵 。 

实现 3D 实时 传 感 的 方法 各 式 各 样 ， 总 的 来 说 都 是 要 输出 一 个 除了 彩色 图 像 之 外 的 等 深 
图 ， 使 成 像 的 3D 物体 和 景象 得 以 重建 。 其 中 三 个 最 为 突出 的 方法 是 ， 结 构 光 3D 传 感 技术 、 
立体 3D 成 像 和 飞行 时 间 法 范围 成 像 技术 571 。 第 5 ~7 章 将 深入 到 每 个 具体 的 3D 成 像 方法 ， 
为 3D 交互 应 用 的 使 用 打下 基础 。 

运用 上 述 技术 实时 获取 3D 视觉 信息 ， 我 们 就 能 通过 3D 图 像 识 别 推理 技术 实现 的 非 触 
屏 互 动 来 启动 丰富 的 人 机 交互 方案 。 图 1. 10 显示 了 一 些 在 显示 屏 前 依靠 3D 手势 而 获取 的 自 
然 体 验 ， 而 并 非 使 用 传统 的 2D 输入 技术 ， 如 鼠标 或 触摸 屏 '371 。 左 图 显示 了 这 样 一 个 场景 ， 
用 户 希 望 伸手 “ 抓 住 ” 门 把 手 , “转动 ”， 然 后 从 显示 平面 中 “ 拉 搜 ”以 “打开 ” 那 扇 门 。 
右 图 展示 了 一 个 “弹弓 ”应 用 程序 . 用 户 用 手指 “ 拉 伸 ”弹力 绳 ,， “瞄准 ”3D 空间 中 的 目 
标 ， 并 “释放 ”弹力 强 ， 以 击 中 目标 并 打破 3D 结构 的 元 素 。 这 些 动作 与 使 用 鼠标 、 键 盘旋 
至 触摸 屏 都 有 很 明显 的 不 同 ， 后 者 并 非 用 户 的 本 真 体验 。 但 是 ， 使 用 实时 的 3D 图 像 捕捉 以 
及 3D 电脑 视觉 算法 来 实现 3D 手势 交互 可 以 产生 更 为 自然 和 本 真 的 用 户 体验 。 


















































图 1.10 交互 应 用 和 基于 实时 3D 传 感 推理 技术 的 体验 ， 包 括 在 显示 器 前 的 3D 空间 内 操纵 物体 [371 

除了 3D 空间 内 的 手势 互动 和 物体 操纵 以 外 ， 实 时 3D 成 像 还 能 变革 照相 方法 、 视 频 会 
议 、 远 程 协作 和 录像 博客 等 应 用 程序 。 比 如 ， 通 过 使 用 3D 成 像 装 置 生成 的 等 深 图 ， 用 户 可 
以 更 轻易 准确 地 从 图 像 中 被 分 离 出 来 ,然后 从 背景 中 抽出 或 放 入 男 一 个 定制 的 背景 中 。 图 
1. 11 呈现 了 这 个 技术 。 

虽然 图 像 处 理 技 术 可 以 用 在 传统 的 2D 图 像 上 来 达成 这 种 效果 ， 但 3D 传 感 设 备 能 使 分 
隔 更 为 清晰 ， 还 能 使 实时 应 用 程序 使 用 3D 景象 信息 。 比 如 ， 人 们 可 以 通过 视频 会 议程 序 在 
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图 1.11 使 用 深度 传 感 成 像 设备 的 3D 分 隔 技术 能 让 你 轻易 地 操控 背景 。 在 这 组 图 片 中 ， 左 
边 的 男孩 出 现在 原始 的 背景 前 ， 右 边 的 他 则 出 现在 另 一 个 经 过 处 理 后 的 不 同 背景 前 。 要 注意 的 是 ， 
通过 分 析 右 图 的 非 连续 的 明暗 底 纹 可 以 发 现 右边 的 背景 并 非 原始 背景 。 深 度 传 感 成 像 设备 通过 使 
用 3D 景象 信息 能 够 实现 实时 分 隔 ， 可 以 用 在 需要 常规 背景 的 视频 会 议 或 博客 的 应 用 程序 中 。 来 
源 : www. cambridgeincolour. com， 获 得 Sean McHugh 的 许可 


家 里 舒适 地 参加 商务 会 议 , 但 是 在 屏幕 上 显示 的 却 是 参 会 人 在 自己 办 公 室 的 背景 ! 

男 一 个 能 够 显著 改善 的 应 用 类 别 是 增强 现实 程序 ， 即 把 3D 图像 内 容 加 至 捕捉 的 图 像 序 
列 中 。 不 同 于 使 用 2D 相机 的 传统 增强 现实 程序 ，3D 成 像 可 以 用 3D 物体 和 反映 真实 视觉 的 
景物 模型 来 增强 影像 内 容 ， 并 使 用 户 能 够 与 增强 现实 的 元 素 进行 交互 。 想 象 一 下 能 够 让 你 虚 



























































拟 地 站 在 装 有 3D 成 像 设 备 的 交互 显示 带 前 试 穿 衣服 或 试 戴 首饰 的 应 用 ， 或 是 选择 合适 的 家 
具 来 虚拟 地 装饰 你 的 房间 。 

除了 追踪 和 识别 手势 和 肢体 动作 之 外 ， 在 侦 测 凝 视 方 向 和 确定 用 户 在 显示 器 上 的 视线 方 
位 方面 ，3D 科技 也 有 了 重大 的 发 展 和 突破 。 目 光 族 视 在 人 际 交 往 方面 发 挥 了 显著 的 作用 。 
凝视 是 注意 力 的 重要 体现 指标 。 图 1. 12 就 显示 了 某 个 人 在 观赏 一 幅 画 时 的 兴趣 点 分 布 。 

















图 1. 12 ”以 凝视 方向 标注 的 视觉 注意 力 示 例 。 左 : 呈现 给 观众 的 图 像 ， 右 : ABE 
的 兴趣 点 分 布 。 来 源 ，cambridgeincolour. com， 获 得 Sean McHugh 的 许可 


神经 生理 学 研究 已 经 显示 了 凝视 在 与 物理 世界 进行 持续 交流 方面 的 重要 性 3,3”] 。 尽 管 
眼睛 的 主要 功能 是 捕捉 景物 的 视觉 信息 一 一 作为 部 分 视觉 感知 过 程 ， 但 我 们 在 交流 的 时 候 
同样 也 把 凝视 和 语音 、 手 势 进行 紧密 协同 。 举 一 个 例子 ， 当 你 说 “请 给 我 那个 红 球 ” 并 注 
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视 椅 子 上 的 那个 红 球 的 时 候 ， 看 着 你 的 人 就 会 明确 地 意识 到 你 并 不 是 要 那个 此 时 放 在 地 上 的 
红 球 。 这 个 人 只 需要 简单 地 跟随 你 双 目 凝视 的 方向 就 能 理解 你 的 意思 ， 即 使 你 并 未 用 手指 指 
向 那个 在 椅子 上 的 球 。 

研究 人 员 长 久 以 来 致力 于 把 强大 的 交互 机 制 并 入 含 计算 系统 的 用 户 界面 ， 特 别 是 和 其 他 
相关 的 交互 模 态 一 起 。 比 如 ,我 们 只 需 瞪 一 眼 笔 记 本 电脑 上 的 图 标 , 说 上 一 名 “打开 它 ” 
或 者 “启动 "， 无须 伸手 触摸 荧屏 或 使 用 鼠标 对 准点 击 就 能 将 文件 打开 ,其 至 还 可 以 在 自由 
空间 内 打 一 个 手势 。 在 第 8 章 ，Drewes 详细 综述 了 凝视 追踪 技术 、 系 统 及 其 应 用 ， 包 括 当前 
人 际 交 互 方案 中 凝视 追踪 的 局 限 性 和 应 对 这 些 挑 战 的 可 能 途径 。 


1. 3.5 多 模 态 交互 


人 类 感知 和 交互 常常 是 多 模 态 的 一 一 我 们 使 用 所 有 的 感官 ， 结 合 由 其 生成 的 神经 信号 来 
理解 周围 物理 世界 并 与 之 交互 。 比 如 ， 我 们 用 双 耳 声 频 信 号 和 频率 提示 来 定位 声音 的 来 源 ， 
随后 用 眼 内 的 聚合 和 调节 系统 把 双 目 视线 指向 该 声 源 ， 并 把 物体 反射 出 的 光线 聚焦 于 我 们 的 
视网膜 上 ， 以 实现 视听 同步 。 同 样 在 其 他 的 场合 中 ,我们 的 听觉 感知 也 可 能 跟踪 视觉 感知 并 
使 其 增强 。 例 如 在 逛 公园 的 时 候 ， 我 们 也 许 先 看 到 一 只 乌 ， 然 后 注意 到 它 的 叫 声 。 在 真实 环 
境 中 ， 我 们 运用 多 模 态 互动 相互 交互 。 根 据 意 图 和 情境 ， 我 们 用 碰 触 、 手 势 、 声 音 、 眼 神 、 
面部 表情 和 感情 的 集合 来 本 能 地 与 人 类 同胞 交流 。 

1976 年 ，McGurk 和 MacDonald 发 表 原 创 论文 并 形象 地 命名 其 为 《 听 层 看 音 》 (Hearing 
Lips and Seeing Voices) 。 文 中 他 们 叙述 了 偶然 发 现 的 视觉 和 听觉 的 互动 ， 也 就 是 后 人 称 为 的 
“ 麦 格 克 效 应 ”4] 。 该 研究 显示 ， 当 我 们 听 到 说 话 人 发 出 的 声音 伴随 着 和 其 他 不 同 的 声音 一 
致 的 视觉 信号 时 (相当 于 配音 过 程 ) ， 会 导致 我 们 感知 到 另 一 种 声音 的 存在 。 我 们 感知 过 程 
中 的 视听 一 体 的 情形 在 表演 腹 语 口技 时 也 非常 明显 ， 同 样 的 效果 还 体现 在 剧院 ， 我 们 产生 了 
演员 在 屏幕 上 说 话 的 纪 觉 ， 其 实 不 过 是 装置 在 场所 其 他 方位 的 扬 声 吉 发 出 声音 。 神 经 生理 学 
证 据 已 经 显示 ， 当 我 们 使 用 多 重 感官 系统 来 理解 周围 的 环境 时 ， 来 自 一 个 感知 传感器 的 神经 
言 号 可 以 促进 、 覆 盖 或 修改 来 自 另 一 个 传感器 的 信和 号。 不同 的 传 感 区 域 在 大 脑 中 互相 作用 ， 
为 连接 脑 内 视觉 、 听 觉 和 触觉 的 接收 区 域 提 供 了 实验 依据 上 4] 。 

因此 ， 自 然 、 本 真 的 人 机 交互 方案 必须 是 多 模 态 的 。 结 合 语 音 识 别 与 位 置 感知 的 早期 研 
究 结果 在 Bolt 于 1980 年 发 表 的 论文 中 有 所 记录 。 他 指出 了 人 机 自然 交谈 的 可 行 性 ， 比 如 
“ 放 在 那里 ”“ 变 成 一 颗 蓝 色 的 大 钻石 ” “BR PEA” BP) Quek 写 道 :“ 为 了 让 人 
机 交互 能 够 达到 人 际 交流 的 透明 水 平 ， 我 们 必须 明白 对 话 互 动 的 现象 学 和 其 他 能 够 帮助 我 们 
理解 的 可 抽取 的 种 种 特征 。” 作 者 还 论述 了 使 用 语音 和 手势 作为 交际 的 共同 表达 形式 [1341 。 

第 9 章 里 ，LaViola 等 人 评述 了 人 机 交互 的 多 模 态 感知 界面 ， 探 索 了 合并 多 种 输入 模 态 
以 构建 自然 交流 的 可 能 性 。 该 章 研 究 了 主导 交互 类 型 ， 各 层次 多 模 态 集合 的 可 用 性 ， 以 及 调 
试 这 些 模 态 的 途径 以 期 达到 逼真 的 自然 交互 。 解 决 多 模 态 界 面 方案 的 人 为 因素 问题 往往 决定 
了 内 置 多 模 态 交互 功能 的 新 设备 、 新 系统 能 否 取得 商业 上 的 成 功 。 除 了 之 前 章节 提 到 的 输入 
EA 〈 如 触摸 、 手 势 、 语 音 、 凝 视 和 面部 表情 ) 之 外 ,本章 还 发 起 了 关于 通过 脑 电 图 学 和 
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肌 电 图 学 来 侦 测 肌肉 活动 的 讨论 ， 以 期 实现 整合 新 兴 的 人 机 界面 技术 。 

科幻 小 说 作者 一 直 在 幻想 着 一 个 人 能 用 脑 电波 控制 电脑 、 机 器 和 系统 的 未 来 世界 ， 在 那 
里 人 们 只 需要 “ 心 想 ”就 能 “ 事 成 ”"! 尽管 那样 的 未 来 还 尚未 实现 ， 但 是 最 近 在 人 脑 界面 技 
术 的 发 展 已 经 显示 了 人 们 具有 通过 思考 生成 大 脑 信号 来 控制 和 操纵 显示 内 容 的 能 力 。 该 领域 
的 研究 一 直 在 持续 ， 力 争 可 以 创造 出 前 所 未 有 的 交互 方案 和 应 用 ， 以 进一步 丰富 未 来 交互 显 
示 系 统 [31 。LaViola 等 人 在 第 9 章 讨论 了 这 种 在 多 模 态 交互 方案 内 的 人 机 界面 整合 。 

除了 与 屏幕 内 容 进行 多 模 态 交互 ， 在 面 控 和 声控 用 户 识别 方面 的 突破 也 有 望 用 自然 的 多 
模 态 生物 计量 验证 取代 原 有 的 密码 身份 验证 。 在 日 常 的 社交 生活 中 ， 我 们 使 用 面部 、 声 音 和 
基于 自然 人 辨识 方案 的 行为 特征 来 建构 与 我 们 交流 的 人 群 的 身份 。 然 而 ,电脑 识别 其 用 户 的 
能 力 却 仍然 很 大 程度 上 限制 于 密码 或 口令 牌 。 随 着 计算 系统 的 普及 与 不 断 融 入 我 们 的 社会 生 
活 ， 这 种 认证 方式 将 不 再 充分 适用 。 

Poh 等 人 在 第 10 章 综述 了 多 模 态 生物 计量 ， 探 讨 了 包括 技术 设计 和 可 用 性 的 问题 以 及 
该 领域 的 近期 发 展 。 作 为 男 一 个 多 模 态 感知 的 范例 ， 我 们 常常 在 相互 交流 的 时 候 使 用 面部 表 
情 的 线索 来 理解 口头 话语 。 同 样 的 字 ， 以 不 同 的 面部 表达 方式 道 出 可 能 会 指 代 完 全 不 同 的 事 
物 。 面 部 表情 可 以 通过 具体 的 脸 部 姿态 下 意识 地 补充 某 种 交流 需要 ， 或 是 自然 而 然 地 显露 某 
种 内 心 的 感觉 和 情绪 。 其 他 观察 者 对 说 话 人 的 面部 表情 的 揣测 往往 取决 于 当时 的 语 境 [*] 。 

150 多 年 以 前 ，Duchenne 以 研究 肌肉 运动 如 何 产 生 多 种 面部 表情 为 目的 对 受 试 人 进行 了 
实验 。 图 1. 13 是 他 的 研究 成 果 的 一 个 例子 ， 表 现 了 通过 电导 探 针 诱导 脸 部 肌肉 收缩 而 产生 
的 一 系列 面部 表情 。 这 是 使 用 了 新 发 明 的 相机 设备 记录 下 来 的 [$$ 。 近 几 十 年 来 ， 数 码 相 
机 、 高 级 图 像 处 理 技术 和 计算 机 资源 的 普及 使 学 者 有 机 会 对 自然 化 的 面部 表情 开展 研究 。 就 
在 最 近 ，3D 传 感 和 处 理 技术 越 来 越 多 地 用 于 更 为 高 级 的 自动 化 面部 表情 识别 。 关 于 视 控 表 
情 识别 技术 的 发 展 在 第 4 章 探 讨 视觉 传 感 和 肢体 动作 交互 的 部 分 将 会 提 及 。 












































图 1.13 Duchenne 的 原创 作品 ， 出 版 于 1862 年 。 介 绍 了 通过 应 用 电子 探 针 激活 肌肉 收缩 ， 
从 而 诱导 不 同 的 面部 表情 。 上 排 的 图 片 显 示 了 脸 两 边 相 同 的 表情 ， 下 排 的 图 片 则 显示 了 左右 两 
边 脸 的 不 同 的 表情 。 改 编 自 Duchennel5] 。 来 源 : 转载 获得 www. zspace. com 许可 
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1.4 “真实 ”3D 交互 显示 探索 


虽然 图 像 显示 器 已 经 无 处 不 在 ， 并 且 成 为 了 我 们 生活 中 不 可 或 缺 的 一 部 分 ， 但 是 目前 绝 
大 部 分 显示 器 主要 显示 的 是 单眼 视觉 信息 (2D) ， 而 无 法 重 构 通 过 人 类 感官 获得 的 3 D 真实 
世界 的 重要 视觉 信号 。 所 以 ， 近 年 来 ，3D 立体 显示 技术 开始 获得 市 场 关 注 。 目 前 3D 商用 显 
示 融 的 主要 关注 点 一 直 在 于 通过 启动 我 们 视觉 体系 中 的 双眼 合 像 来 提供 实体 视觉 线索 。 该 过 
程 中 ,不 同 的 视觉 图 像 呈 现 到 用 户 的 左右 眼 以 获取 深度 感知 。 许 多 书籍 都 介绍 了 各 种 重 构 
2D 和 3D 图 像 的 显示 技术 的 运行 原理 15]。 

我 们 最 终 的 目标 是 构建 “真实 ”3D 交互 显示 系统 ， 为 用 户 提供 棚 棚 如 生 和 身 临 其 境 的 
视觉 和 交互 体验 。 这 样 的 显示 系统 的 发 展 需要 更 为 仔细 的 研究 ， 包 括 考察 人 类 视觉 感知 系统 
和 重 构 与 视觉 线索 一 致 的 信号 流程 ， 这 样 ， 我 们 才能 利用 传 感 技术 来 感知 我 们 日 常生 活 中 的 
3D 世界 。 那 么 ， 我 们 应 该 如 何以 我 们 的 视觉 和 感知 处 理 系统 来 理解 3D 技术 呢 ? 除了 立体 观 
测 ， 我 们 对 现实 世界 的 3D 感知 利用 了 一 些 重要 的 3D 视觉 线索 。 这 些 线索 包括 : 中 运动 视 
差 效应 ， 即 当 我 们 在 移动 的 时 候 ， 总 是 感觉 离 我 们 近 的 目标 相 较 于 离 我 们 远 的 目标 运动 速度 

更 快 ; 包 聚 合 效应 ， 即 眼球 会 向 内 侧 或 外 侧 转动 以 聚焦 在 一 个 离 得 近 或 远 的 物体 ; 色调 节 效 
应 ， 眼 部 晶状体 的 形状 会 因为 聚焦 某 个 物体 而 自行 调节 ; @ 谈 挡 效 应 ， 即 较 近 的 目标 部 分 遮 
挡 了 较 远 的 目标 ; 全 线性 透视 效应 ， 平 行 线 会 在 视野 上 的 远 点 汇聚 @@ 纹 理 梯度 效应 ， 间 隔 
均匀 的 目标 从 远 处 观察 会 显得 更 密集 ; @ 与 目标 的 3D 位 置 和 照明 环境 一 致 的 投影 ，@ 以 及 
其 他 来 源 于 我 们 已 有 的 知识 线索 ， 比 如 熟悉 的 大 小 和 腻 胱 的 环境 等 。 这 些 重要 的 3D 视觉 线 
E 

经 证 明 ， 在 显示 器 上 实施 的 运动 视差 效应 : 投射 在 视网膜 上 的 图 像 与 观众 的 头 眼 移动 
变化 一 ns 这 为 用 户 提供 了 除了 立体 观测 外 更 逼真 的 视觉 凤 体 验 。 该 产品 的 一 个 例子 是 来 自 
zSpace 的 一 个 显示 厦 ， 如 图 1. 15 所 示 。 该 3D 显示 系统 通过 红外 相机 传感器 来 跟踪 用 户 的 头 
部 移动 ， 并 根据 用 户 的 特定 位 置 创建 立体 图 像 对 ， 从 而 提供 实时 运动 视差 的 视觉 线索 [1 。 
系统 还 包括 一 个 手写 笔 来 操控 3D 空间 的 虚拟 物体 。 

传统 3D 立体 显示 也 受到 不 一 致 的 焦点 线索 的 影响 ， 这 是 由 于 双眼 聚合 的 目标 和 晶状体 
调节 双眼 聚焦 射 人 光线 的 不 匹配 而 造成 的 ， 该 冲突 是 导致 人 类 视觉 疲劳 的 原因 [1， 最 近 有 
人 提出 了 通过 使 用 电 调节 镜片 来 应 对 这 一 问题 [*]， 

在 本 章 前 面 的 部 分 ,我们 已 经 讨论 了 触 控 传感器 和 相关 用 户 界 面 的 增加 (特别 是 在 移 
动 显示 器 上 ) 正 逐 步 将 传统 显示 器 变 为 双 癌 沟通 的 交互 设备 。 我 们 也 观察 到 ， 除 了 2D 平面 
显示 器 有 限 的 触摸 输入 ， 最 近 3D 成 像 和 行为 识别 技术 的 进展 越 来 越 多 地 允许 用 户 在 显示 器 
前 实现 与 系统 的 3D 交互 。 我 们 预计 ， 这 两 个 领域 发 展 的 结合 将 会 构造 一 个 点 对 点 的 3D 用 
户 交 互 界面 系统 ， 并 同时 可 以 显示 3D 视觉 内 容 、 理 解 用 户 的 输入 。 
显然 ， 使 用 2D 用 户 输 入 方案 (如 触 碰 或 点 击 鼠 标 ) 以 操控 3D 显示 器 上 显示 的 内 容 无 
法 实现 自然 或 本 真 的 用 户 体验 ， 此 时 使 用 3D 交互 方案 可 能 更 合适 。 例 如 ,研究 用 户主 观 体 
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a) b) c) d) 








图 1. 14 突出 的 视觉 线索 的 描述 有 助 于 丰富 我 们 对 周围 环境 的 3D 感知 和 把 握 未 来 “真实 ” 
3D 显示 器 生产 的 方向 : 需要 为 用 户 提供 身 临 其 境 的 3D 视觉 体验 。 上 方 图 内 的 又 加 图 形 描 述 了 实 
体 视觉 线索 的 双眼 差异 : a) 是 用 户 左 眼看 到 的 图 像 ，b) 是 右 眼 所 看 到 的 图 像 。 它 还 展示 了 让 挡 
线索 ， 它 作为 一 个 单一 视图 足以 上 暗示 正方 形 更 接近 观察 人 ， 而 三 角形 则 更 远 。 这 也 解释 了 运动 视 
差 效 应 : 随 着 眼睛 位 置 在 视野 中 从 左 向 右 移动 ， 正 方形 在 视野 中 左 移 的 距离 比 圆 形 左 移 的 距离 要 
更 远 ， 因 为 圆 形 距 离 观 察 人 更 远 。 下 方 图 示 则 解释 了 聚合 线索 和 调节 线索 : c) 展示 了 当 看 到 一 个 
遥远 的 物体 时 ， 有 眼睛 的 光学 轴 是 几乎 互相 平行 的 ; d) 展示 了 当 双 眼 聚 焦 于 一 个 近 处 的 物体 时 ， 
晶状体 的 形状 会 调整 ， 以 使 图 像 聚 焦 在 视网膜 上。 除 此 之 外 ,还 有 其 他 的 3D 视觉 线索 将 会 在 正 
文中 解释 
































































































































图 1.15 由 zSpace 生产 的 结合 了 运动 视差 效果 和 立体 观测 的 交互 式 显 示 器 图 示 。 系 统 跟踪 
用 户 的 头 部 运动 并 向 用 户 展示 了 根据 用 户 所 处 的 位 置 而 创建 的 立体 图 像 对 。 手 写 笔 被 用 于 与 显示 
器 的 虚拟 对 象 进行 实 时 交互 。 来 源 : www. zspace. com， 转 载 获得 许可 











验 的 数据 表明 ， 用 平面 触摸 方式 在 3D 立体 显示 器 上 进行 3D 视觉 交互 存在 重大 问题 [4%] ， 而 
用 户 更 趋向 于 用 手势 与 3D 虚拟 对 象 进行 交互 。 为 了 直接 操纵 3D 显示 器 上 的 内 容 ， 研 发 
直接 的 3D 交互 方案 引起 了 人 们 越 来 越 多 的 兴趣 5 ON ， 不 过 实现 这 一 方案 的 实践 应 用 仍然 
需要 进一步 的 发 展 。 

未 来 “真实 ”的 3D 交互 显示 将 需要 呈现 动态 的 3D 视觉 内 容 ， 为 用 户 提供 一 致 的 立体 
观测 、 视 差 和 焦点 线索 ， 实 现 除了 获取 单眼 3D 线索 外 的 深度 感知 ， 同 时 研发 3D 传 感 和 推 
理 技 术 以 实现 与 3D 空间 内 重 构 的 物体 进行 沉浸 式 交 互 。 第 11 章 是 对 实现 这 一 目标 的 需求 
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和 进程 的 深入 分 析 。 这 一 章 首先 详细 列 出 了 利用 光 场 原则 和 人 类 视觉 感知 的 基础 知识 重建 
“真实 ”3D 视觉 信息 的 内 容 。 然 后 综述 了 能 够 提供 所 有 重要 视觉 线索 和 逼真 3D 感知 的 “ 真 
实 ”3D 图 像 显示 器 的 技术 发 展 。 最 后 ， 我 们 提出 了 集成 人 机 交互 /3D 视觉 内 容 和 系统 的 建 
X, 包括 人 为 因素 问题 和 潜在 的 解决 方案 。 























1.5 结语 

















可 视 信息 显示 设备 现在 已 经 无 处 不 在 了 。 它 们 是 所 有 类 型 的 电脑 运算 、 通 信 、 娱 乐 和 其 
他 电子 设备 系统 的 表情 。 近 几 十 年 来 ， 科学 拉 术 的 突飞猛进 为 实现 高 质量 的 可 视 化 效果 打下 
了 基础 ， 大 批 各 种 型 号 的 、 轻 薄 的 、 低 电 耗 且 价 格 合理 的 显示 设备 已 经 发 挥 了 绝妙 的 视觉 功 
效 。 消 费 者 快速 地 接受 各 种 形态 的 可 视 装 置 导致 商业 出 货 规模 猛 增 , 这 些 产品 从 可 穿戴 法 
置 、 手 持 智 能 手机 到 平板 电脑 、 笔 记 本 电脑 ， 青 到 巨 屏 电 视 机 和 信息 咨询 站 等 。 如 今 ， 显 示 
设备 正在 从 单 向 视觉 信息 迈 向 双向 交互 发 展 的 新 纪元 。 

人 机 交互 方案 同样 也 在 经 历 变革 ， 传 统 的 键盘 和 鼠标 界面 正在 被 更 为 直接 、 自 然 的 触 
碰 、 声 音 或 手势 取代 或 改善 。 受 益 于 触 敏 技术 的 快速 发 展 ， 手 机 用 户 获得 了 前 所 未 有 的 新 界 
面 、 新 应 用 的 使 用 体验 。 内 置 实 时 3D 图 像 捕 捉 技 术 和 推理 算法 的 3D 可 视 电 脑 有 望 通过 开 
Ja 3D 空间 内 的 各 类 人 机 互动 得 到 进一步 发 展 。 此 外 ， 在 语音 界面 、 凝 视 侦 测 、 脑 机 界面 方 
面 的 研究 已 经 取得 了 重大 进步 。 基 于 多 感官 感知 方案 的 多 模 态 互动 及 其 集成 的 各 式 输入 途径 
有 望 让 人 们 的 互动 体验 充满 真实 的 精彩 。 

本 书 聚 焦 自 然 、 沉 温 式 的 用 户 界面 这 一 话题 ， 对 当下 划 动 发 展 的 互动 显示 领域 进行 了 综 
述 ， 包 括 领域 内 的 技术 、 应 用 和 发 展 趋势 。 本 章 概述 了 与 交互 显示 意义 和 发 展 有 关 的 感知 与 
理解 过 程 ， 并 审视 了 自然 人 机 界面 技术 。 就 好 像 几 十 年 前 发 明 的 鼠标 和 图 形 用户 界 面 催生 了 
无 数 新 的 电脑 应 用 ， 还 有 近 几 年 间 由 触 碰 界面 的 普及 带 来 的 其 他 诸如 智能 手机 和 平板 电脑 等 
新 的 应 用 一 样 ， 基 于 3D 多 模 态 感知 和 推理 技术 的 自然 、 本 真 用 户 界面 也 必 将 引发 新 一 轮 的 
交互 应 用 热潮 。 显 示 系 统 的 未 来 是 交互 的 ， 而 这 样 的 未 来 已 经 开局 ! 
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2.1 引言 





本 章 试 图 为 应 用 于 人 机 交互 界面 的 触 控 技 术 提 供 一 个 明确 的 定义 。 本 章 的 目的 在 于 让 读 
者 对 18 种 不 同 的 触 控 技术 的 操作 、 功 能 、 应 用 、 优 缺点 、 局 限 性 等 方面 有 深入 广泛 的 认识 。 
这 对 用 户 了 解 如 何 与 机 器 互动 很 有 帮助 ， 因 为 随 着 触 控 与 其 他 输入 模 态 的 不 断 结合 ， 用 户 的 
选择 也 日 趋 广泛 ， 如 第 1 章 和 第 9 章 所 述 。 

本 章 讨 论 的 范围 仅 限 于 接触 显示 屏 的 触 控 技 术 ， 不 包括 笔尖 输入 和 手指 “用 空 ”输入 
这 两 种 与 显示 屏 有 Lem 距离 的 输入 方式 。 非 透明 表面 ( 非 显 示 屏 ) 接触 、 近 距离 感应 以 及 
手势 (3D) 输入 也 不 在 本 章 讨论 范围 内 。 本 章 同样 不 涉及 触摸 屏 生 产 制造 方面 的 具体 内 容 。 

在 触 控 技术 和 集成 系统 的 一 系列 命题 中 ， 我 们 主要 探讨 各 类 技术 的 特点 而 非 专 注 于 某 一 
项 技术 ， 因 此 在 内 容 上 我 们 注重 广度 而 不 追求 深度 。 在 本 章 ( 力 至 整个 触 控 产业 ) P, “fh 
摸 屏 ” 和 “ 触 控 面板 ”是 同义词 ， 前 者 多 用 于 西方 国家 ,后 者 则 在 亚洲 比较 常见 。 两 种 说 
法 都 指向 同一 种 包含 了 由 触 控 传感器 、 触 控 控 制 器 和 计算 机 界面 构成 的 触 控 模块 。 

本 章 将 全 部 触 控 技术 划分 为 六 个 大 类 ， 每 个 大 类 又 依次 划分 为 厨 干 小 类 (用 圆 括 号 表 
示 , 一 共有 18 种) 如下: 电容 式 触 控 技术 (2 种 ) 、 电 阻 式 触 控 技 术 (3 种 ) 、 声 学 触 控 技 
AR (3 种 ) 、 光 学 触 控 技术 (5 种 ) RARER (4 种 ) 及 其 他 (1 种 )。 文 中 “ 扔 入 
式 ” 指 的 是 触 控 功 能 已 在 制造 过 程 中 被 显示 器 制造 者 完全 集成 到 显示 需 中， 与 此 相对 应 的 
“分 离 式 ”， 指 的 是 触 控 功 能 被 触摸 屏 制 造 者 添加 到 显示 器 中 的 技术 。 

和 触 控 产业 具有 高 度 的 保密 性 ， 在 该 领域 至 少 200 个 以 上 的 公司 ， 甚 至 包括 一 些 大 公司 都 
是 私有 企业 。 由 此 产生 的 结果 就 是 很 少 有 触觉 传 感 技术 发 明 者 、 开 发 者 或 者 供应 商 发 表 论 文 
或 出 版 图 书 ， 这 也 是 本 章 有 别 于 其 他 章 之 处 。 本 章 的 参考 资料 范围 特别 广泛 ， 包 括 网 络 、 杂 
志 、 时 事 通 讯 、 和 白皮书 、 专 利 权 、 会 议 演 讲 材 料 、 新 闻 稿 和 用 户 指南 ， 甚 至 包括 博客 文章 。 
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也 正 是 因为 缺乏 有 关 触 觉 传 感 技术 的 学 术 论文 和 图 书 ， 本 章 中 追溯 触觉 传 感 技术 历史 的 部 分 
更 侧重 于 其 商业 化 的 时 间 而 不 是 研发 时 间 。 


2.2 触 控 技术 简介 


从 CRT 显示 屏 到 OLED 显示 屏 ， 显 示 屏 很 早 就 被 用 作 输 出 设备 。 只 是 最 近 因 为 将 触觉 
感知 功能 外 加 或 者 集成 到 显示 屏 技术 的 兴起 ， 显 示 屏 才 被 大 量 作为 交互 式 的 输入 设备 而 使 
用 。 在 1965 年 ，Johnson 第 一 次 以 书面 的 形式 记录 了 电容 式 触 摸 屏 的 使 用 之 后 '! 1 ， 大 约 过 了 
30 年 后 触摸 屏 才 充 分 广泛 地 应 用 于 商家 使 用 的 产品 〈 即 卖方 应 用 领域 ) 中 ， 例 如 销售 终端 
和 机 场 的 登 机 系统 21。 触摸 屏 第 一 次 广泛 而 明确 地 应 用 在 消费 者 产品 ( 即 买方 应 用 领域 ) 
中 是 20 世纪 90 年 代 中 期 开发 的 电子 记事 德 。 第 一 台 掌 上 电子 记事 德 是 1993 年 苹果 公司 出 
品 的 Newton 电子 记事 每 ， 紧 接着 在 1997 年 又 出 现 了 更 为 有 名 的 Jeff Hawkins 掌上 电脑 。 

最 终 导致 当 下 “触摸 无 处 不 在 ”的 浪潮 的 大 事件 则 是 2007 年 苹果 公司 iPhone 手机 的 发 
明 。 苹 果 公 司 创新 性 地 启用 了 一 项 之 前 默默 无 闻 但 是 使 用 起 来 异常 简单 的 触 控 技术 (投射 
电容 式 触 控 技术 ) ， 让 用 户 在 使 用 手机 时 有 一 种 身 临 其 境 的 体验 ， 从 而 点 燃 了 人 们 使 用 触摸 
屏 的 热情 ， 并 使 这 种 热情 持续 攀升 ( 见 图 2.1 和 图 2.2) "41, 全 果 公 司 这 一 发 明 也 彻底 改变 
了 触摸 屏 产 业 的 格局 ， 传 统 的 占 主导 地 位 的 模拟 电阻 式 技术 很 快 被 发 展 迅速 的 投射 电容 式 技 
A (p-cap) 所 取代 (DLA 2.3), 

Wai (10 亿 ) 
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图 2.1 触 控 模块 的 出 货 数量 图 (单位 : 1044), 2007 ~ 2012 年 的 数据 为 实际 数 ， 
2013 ~2017 年 的 数据 为 估计 数 。 数 据 来 源 参 考 文献 [4] 


2009 年 7 月 ， 微 软 公司 Windows 7 系统 投放 市 场 ， 标 志 着 一 体式 (AiO) 家 庭 桌面 电脑 
初 现 雏形 。 第 二 年 ， 蔷 果 公司 推出 iPad (2010 年 4 月 ) ， 这 是 第 一 部 百分之百 触摸 操作 的 消 
费 电子 产品 (所 有 的 平板 电脑 都 具有 触摸 功能 ， 但 是 并 不 是 所 有 的 手机 都 有 触摸 功能 ) 。 微 
软 公司 Windows 8 在 2012 年 的 8 H EW, 标志 着 Windows 系统 从 桌面 操作 系统 (OS) 到 
“触摸 优先 ”操作 系统 的 转变 。 而 本 书 成 稿 时 ， 该 转变 产生 的 影响 依旧 存在 于 整个 个 人 电脑 
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和 触摸 屏 产业 。 
收入 (10 亿 美元) 
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图 2.2 触 控 模 块 的 收益 图 (单位 :10 亿美 元 ) 2007 ~ 2013 年 的 数据 为 实际 数 ，2014 ~ 2017 4 
的 数据 为 估计 数 
注 : 本 书 作者 认为 2011 ~ 2012 年 103% 的 收益 增长 是 
大 而 造成 的 。 数 据 来 源 参考 文献 【4] 。 











因为 市 场 调 研 报 告 撰写 者 有 变 ， 并 不 是 因为 市 场 规模 的 扩 
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其 他 
= AT (投射 电容 式 触 控 ) 
Shick (投射 电容 式 触 控 ) 
= 电阻 
日 投射 电容 式 触 控 
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图 2.3 触 控 技术 的 出 货 数量 比例 图 ，2007 ~ 2012 年 的 数据 为 实际 数 ，2013 ~ 2017 年 的 数据 
为 佑 计数。 模拟 电阻 式 触 控 技术 在 2007 年 占据 了 93% 的 份额 ， 而 在 2012 年 就 暴跌 至 20% ; 与 此 
相 比 ， 投 射电 容 式 触 控 技 术 的 份额 (LER RA Sh) 则 达到 78%。 有 研究 预测 在 2017 年 
这 一 比例 会 上 升 到 90% ， 非 常 接 近 模 拟 电阻 式 技术 在 2007 年 的 水 平 。 数 据 来 源 参 考 文献 [4] 























2.2.1 触摸 屏 

从 普通 用 户 的 角度 来 看 ， 触 摸 屏 就 是 一 种 可 以 感知 并 且 对 触 磁 到 屏幕 的 物体 一 一 手指 、 
输入 笔 或 者 信用 卡 的 一 个 角 一 一 做 出 响应 的 计算 机 显示 屏 。 而 从 技术 者 的 角度 来 看 ， 显 示 屏 
和 用 来 感应 触 碰 物体 的 元 件 分 属于 不 同 的 电子 系统 ， 两 者 必须 被 区 别 对待 。 当 两 者 合 为 一 体 
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时 ， 这 类 产品 通常 被 称 为 “交互 式 显 示 屏 ”或 者 有 时 候 就 被 叫 作 “ 和 触摸 显示 屏 ”。 

在 本 章 中 ,“ 和 触摸 屏 ” 一 词 仅仅 用 于 描述 可 以 感知 用 户 的 触摸 ， 并 且 将 这 种 触摸 的 信息 
转化 为 电脑 可 以 理解 和 应 用 的 信号 的 电子 系统 。 对 于 当下 大 部 分 产品 而 言 ， 这 样 的 系统 通常 
由 专 研 触摸 屏 技 术 的 公司 提供 〈 他 们 通常 被 称 为 触摸 元 件 制造 商 ) 。 触 摸 屏 和 显示 屏 的 集成 
可 以 由 触摸 元 件 制造 商 、 显 示 屏 制造 商 、 系 统 集成 商 ， 或 者 原始 设计 制造 商 / 原 始 设计 制造 
商 来 完成 (对 于 消费 电子 产品 而 言 ， 原 始 设备 制造 商 通 常 指 购买 其 他 厂商 的 产品 或 者 技术 
后 冠 注 自己 商标 来 销售 的 厂商， 而 原始 设计 制造 商 则 是 指 设计 或 者 制造 设备 的 厂商 )。 

除了 触 控 技术 ,触摸屏 包含 如 下 三 个 要 素 : 传 感 锅 、 控 制 锅 和 电脑 界面 。 这 三 者 可 以 用 
一 个 立体 图 来 体现 〈 见 图 2.4) 。 对 于 除 衣 入 式 触摸 屏 以 外 的 所 有 触摸 屏 而 言 ， 传 感 器 和 保 
护 性 的 屏幕 玻璃 盖 片 属于 一 个 主体 。 而 实际 上 感应 元 件 有 可 能 安装 在 玻璃 盖 片 下 面 、 边 角 
上 、 表 面 上 ， 或 者 是 直接 放 在 玻璃 盖 片 上 方 。 而 对 于 伐 入 式 触 摸 屏 而 言 ， 感 应 元 件 则 集成 在 
屏幕 的 内 部 ， 玻 璃 盖 片 则 仅仅 起 到 一 个 保护 性 的 作用 而 已 。 


电阻 ， 电 容 ， 声 控 ， 嵌入 式 ， 专 用 集成 电路 IC 端口 ，USB 端 口 ，SPI 
ALPE, HK Asta (ASIC) 或 通用 印 制 电路 板 接口 或 串 行 端口 


图 2.4 ， 触 控 技 术 的 要 素 概念 图 
2.2.2 按 大 小 和 应 用 对 触 控 技术 进行 分 类 


大 部 分 的 触 控 技 术 都 在 各 自 擅长 的 领域 有 特殊 的 应 用 。 就 如 世界 上 最 著名 的 触觉 技术 研 
FÉ Bill Buxton 所 说 ,“ 每 样 东西 在 某 一 方面 是 最 好 的 ， 但 是 在 另 一 方面 又 是 最 坏 的 。” SIR 
2. 1 将 本 章 中 涉及 的 18 项 触 控 技术 按 两 种 标准 进行 了 分 类 。 第 一 种 标准 是 设备 的 类 型 和 尺 
+, WTF: 

。 移动 设备 ， 例 如 平板 电脑 (2 ~17in®) 。 

。 固定 的 商业 设备 ,例如 销售 终端 机 (10 ~30in) 。 

。 固定 的 消费 设备 ,例如 一 体式 电脑 (10 ~30in) 。 

© 所 有 的 大 于 30in 的 设备 (通常 称 为 “大 画幅 ”触摸 屏 ) 。 

在 表 2. 1 中， 本 章 涉及 的 18 种 触 控 技术 均 按照 设备 的 类 型 、 大 小 和 使 用 状态 进行 了 分 
类 。 在 表示 设备 类 型 的 行 和 表示 大 小 的 列 的 交汇 处 ， 我 们 用 如 下 不 同 的 方式 来 表示 每 一 种 触 
控 技 术 的 使 用 状态 : 如 果 此 种 技术 被 广泛 使 用 且 被 普遍 地 接受 ， 则 用 A 表示 ; 如 果 此 种 技 
术 虽 然 目 前 仍 在 使 用 但 是 已 经 接近 被 淘汰 的 状态 ， 则 用 工 表 示 ; 如 果 此 种 技术 正在 兴起 ， 刚 
WIE ATT a LA, WUE ean; 空白 则 指 并 不 存在 此 种 对 应 大 小 和 市 场 类 型 的 触 控 技 
术 。 表 中 每 种 触 控 技术 前 的 编号 将 沿用 于 整 章 中 。 















































一 





















































© ”lin =0.0254m。 一 一 译 考 注 


26 ”实感 交互 ， 人 工 智能 下 的 人 机 交互 技术 


表 2.1 18 种 触 控 技术 分 类 








































































































Je 固定 的 商业 设备 ，| 固定 的 消费 设备 ， Pee 
编号 名 称 移动 设备 | 例如 销售 终端 机 | 例如 一 体式 电脑 A 
(2 ~17in) . 触摸 屏 ( >30in) 
(10 ~30in) (10 ~30in) 

1 投射 电容 式 触 控 A A A A 

2 表面 电容 式 触 控 L 

3 模拟 电阻 式 触 控 A A L 

4 数字 多 点 电阻 式 触 控 E 

5 模拟 多 点 电阻 式 触 控 E L 

6 表面 声波 A L A 

7 声学 脉冲 识别 A 

8 色散 信号 L 

9 传统 红外 A A 
10 多 点 触 控 红外 E E E 

11 摄像 光学 触 控 A A 

入 平面 散射 检测 光学 触 控 (玻璃 光学 平 5 

面 探测 ) 
13 视觉 光学 触 控 E 
14~16 | WARE SMR, Al, 混合 ) A 

17 RA REIER es E 
18 力 传 感 式 触 控 E 

















第 二 种 分 类 的 标准 则 是 基于 以 上 四 种 触 控 技 术 的 普遍 性 做 出 的 ， 如 下 : 

。 AL 活跃 等 级 ， 表 示 此 种 技术 被 广泛 使 用 且 被 普遍 地 接受 。 

。 工 : 式微 等 级 ， 表 示 此 种 技术 虽然 目前 仍 在 使 用 但 是 已 经 接近 被 淘汰 的 状态 。 

o E: 新 兴 等 级 ， 表 示 此 种 技术 正在 兴起 ， 刚 刚 进入 市 场 或 者 应 用 。 

© (ZA): 指 并 不 存在 此 种 对 应 大 小 和 市 场 类 型 的 触 控 技术 。 

表 2. 1 可 以 竖 着 看 也 可 以 横着 看 。 例 如 ， 从 移动 设备 那 一 列 往 下 看 ， 我 们 可 以 知道 投射 
电容 式 触 控 技 术 、 模 拟 电 阻 式 触 控 技术 〈 单 点 触 控 ) 以 及 般 入 式 触 控 搁 术 是 移动 设备 生产 
中 最 主要 的 技术 类 别 (A); 多 点 电阻 式 触 控 技术 和 多 点 触 控 红 外 技术 则 并 没有 完全 在 移动 
设备 制造 中 普及 (E); 除 此 之 外 就 没有 其 他 的 应 用 于 手机 设备 的 触 控 技术 了 。 同 样 地 ， 从 
固定 的 商业 设备 那 一 列 往 下 阅读 ， 我 们 可 以 看 到 有 五 种 触 控 技术 在 这 一 领域 广泛 使 用 
(A) 一 一 相 较 于 其 他 列 是 比较 多 的 。 这 是 因为 商业 性 应 用 已 经 存在 了 将 近 30 年 ， 并 带动 了 
其 他 配套 性 触 控 技术 的 发 展 。 

从 表面 电容 式 触 控 技 术 那 一 行 看 过 去 ， 我 们 可 以 发 现 这 项 技术 仅仅 应 用 在 固定 商业 设备 
中 ,并且 这 种 技术 最 终 会 消失 〈 因 此 我 们 把 其 归于 工 类 ) 。 同 样 地 ， 我 们 看 到 玻璃 光学 平面 
探测 那 一 行 ， 可 以 看 到 此 种 技术 刚刚 兴起 ， 目 前 仅 应 用 在 固定 的 消费 设备 〈 例 如 一 体式 家 
庭 电脑 ) 和 大 型 设备 〈 例 如 信息 屏 ) 这 两 个 方面 。 必 须要 知道 的 是 ， 玻 璃 光学 平面 探测 
(第 12 项 ) 只 是 技术 的 暂 用 名 。 其 基础 技术 起 初 由 触 控 技术 供应 商 FlatFrog 命名 为 “平面 散 

















射 检测 ”， 这 是 投入 市 场 后 会 采用 的 更 准确 的 名 称 。 
2.2.3 按 材质 和 结构 分 类 的 触 控 技术 

本 节 将 讨论 另 一 种 为 18 种 触 控 技术 进行 分 类 的 方法 ， 即 按照 材质 和 结构 分 类 。 和 触摸 屏 
最 基本 的 材质 就 是 透明 导体 ， 最 具有 典型 代表 性 的 就 是 导电 玻璃 (ITO)。 图 2. 5 将 触 控 技 


术 按照 “使 用 导电 玻璃 ” (左边 8 个 ) 和 “不 使 用 导电 玻璃 ” (右边 10 个 ) 分 成 了 两 组 ， 
而 对 “使 用 导电 玻璃 ”， 又 会 按照 是 否 压 制 成 薄片 进行 分 类 。 
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视 控 
-广泛 使 用 KOR = 
= 不 再 使 用 IRA OG) 
E = 新 兴 技术 压力 传 感 





图 2.5 18 种 触 控 技术 首先 会 按照 是 否 使 用 透明 导体 材质 (典型 的 是 TO) 进行 分 类 。 然 后 会 按 
是 否 被 压制 成 薄片 对 使 用 ITO 进行 分 类 ， 然 后 再 进一步 按照 分 辩 率 来 细 分 。 而 对 不 使 用 ITO 的 则 进 一 
步 按 是 否 使 用 边缘 连接 器 来 分 类 。 注 意 触 控 技 术 的 数目 与 表 2. 1 相 匹配 












































如 果 导 电 玻璃 被 压制 成 薄片 ， 还 会 有 低 分 辩 率 (毫米 ) 和 高 分 辨 率 (微米 ) 之 分 。 在 
不 使 用 导电 玻璃 的 触 控 技术 中 ， 另外 8 种 则 是 不 使 用 的 。 


2.2.4 按 检测 物理 量 分 类 的 触 控 技 术 


不 了 解 触 控 技术 的 人 经 常会 问 为 什么 有 那么 多 种 不 同 的 种 类 。 最 简单 的 答案 就 是 ， 触 碰 
是 一 种 间接 的 不 容易 测量 的 行为 。 如 果 你 触 碰 某 种 东西 ， 并 没有 一 种 确定 的 方法 可 以 确定 你 
触 碰 在 什么 地 方 ， 使 用 的 力度 有 多 大 ， 以 什么 物体 进行 触 碰 的 ， 其 至 是 不 是 你 碰 的 都 无 法 确 
定 。 因 此 有 必要 以 表 2. 2 中 列 出 的 物理 量 来 描述 一 种 触 碰 的 行为 。 尽 管 如 此 ， 还 是 无 法 单 用 
一 种 触 控 技 术 来 明确 如 上 提 到 的 四 个 方面 。 这 一 难题 被 人 们 戏称 为 “不 存在 任何 一 种 完美 
的 触 控 技 术 ”。 
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表 2.2 18 种 触 控 技 术 可 以 用 9 种 不 同 的 物理 量 来 衡量 。 为 了 确定 触 碰 的 位 置 、 触 碰 的 力度 、 触 碰 的 物品 ， 
以 及 特定 触 磁 人 这 四 个 方面 ， 需 要 综合 多 种 触 碰 技 术 来 进行 




























































































编号 技术 名 称 测量 的 物理 量 
1, 14~16 投射 电容 式 触 控 技 术 ， 艇 入 式 电容 式 触 控 技 术 电容 
2 表面 电容 式 触 控 技术 电流 
3~5 电阻 式 触 控 技术 (所 有 的 形式 ) BJE 
6 表面 声波 触 控 技术 超声 波 振 幅 
7,8 声学 脉冲 识别 式 触 控 技术 弯曲 波 
9~12 红外 、 摄 像 光 学 及 平面 散射 探测 光学 触 控 技术 光 的 缺失 或 减弱 程度 
13 视觉 光学 触 控 技术 图 像 的 移动 
17 BRA SOAS RSE ES HAE 
18 力 传 感 式 触 控 技 术 力量 











2.2.5 按 感知 能 力 分 类 的 触 控 技术 


2011 年 发 表 的 一 篇 文章 关注 了 深 广度 两 分 法 对 具有 不 同感 知 功能 的 触 控 软件 的 分 类 5]， 
多 伦 多 大 学 的 Daniel Wigdor 在 该 文中 提出 了 图 2. 6 所 示 的 分 类 方法 。 在 图 2.6 的 左 半 部 分 ， 
他 列 出 了 三 种 类 型 的 能 被 感知 的 对 象 : 触 点 ( 触 碰 次 数 和 用 户 )、 触 控 笔 (支持 程度 ) 和 影 
像 ( 仅 适用 于 视 控 式 触 碰 技 术 )。 在 图 2.6 的 右 半 部 位 ， 他 列 出 四 种 可 被 感知 的 信息 : 接触 
(来 自身 体 的 不 同 部 位 或 者 不 同 的 用 户 ) 、 悬 译 (支持 程度 ) 、 接 触 数据 (关于 接触 物 的 信 
息 )， 以 及 压力 (支持 程度 ) 。 在 本 章 提 到 的 18 种 触 控 技术 中 ， 每 一 种 都 可 以 按照 七 种 功能 
来 表示 。 图 2. 6 可 以 用 来 表示 任意 一 种 触 控 技 术 的 特征 ， 例 如 用 于 iPhone 和 iPad 的 p - cap 
技术 ， 可 以 这 样 来 表示 : 
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图 2.6 Daniel Wigdor 提出 的 基于 感知 触 碰 物 和 信息 获取 类 型 的 触 控 技 术 分 类 法 。 画 圈 处 
代表 了 诸如 在 iPhone iPad 和 类 似 移动 设备 中 应 用 的 p - cap 技术 的 特征 。 来 源 : Wigdor, D., 
2011。 转 载 获 得 国际 信息 显示 学 会 的 许可 

















。 单 用 户 使 用 ， 具 有 手势 识别 功能 。 

。 可 以 识别 电容 触 控 笔 ， 但 无 法 区 分 触 碰 来 自 手 指 还 是 触 控 笔 。 

。 不 具有 影像 识别 功能 。 

。 不 具有 区 分 触摸 动作 来 自 于 身体 不 同 部 位 或 者 来 自 于 不 同 用 户 的 功能 。 
© NAA ae Ae HE 

。 可 以 以 一 个 矩形 方块 来 粗略 估计 接触 物 的 矿 二 。 

。 不 具有 压力 感应 功能 。 


2.2.6 触 控 技术 的 未 来 


尽管 触 控 技术 已 经 存在 了 半 个 世纪 ， 并且 在 最 近 25 年 内 风靡 全 球 ， 然 而 它们 依旧 不 够 
成 熟 并 且 没 有 充分 地 商品 化 。 其 中 一 个 原因 就 是 我 们 之 前 提 到 的 “并 不 存在 任何 一 种 完美 
的 触 控 技 术 ”。 男 外 一 个 原因 就 是 触 控 技术 产业 需要 强大 的 知识 产权 创新 能 力 来 驱动 ， 苋 争 
尤其 激烈 。 在 这 一 行业 ， 新 兴 的 公司 如 雨 后 春 血 般 冒 出 ， 它 们 不 断 地 推出 创新 的 触 控 形式 
(比如 新 发 明 更 好 地 满足 了 消费 应 用 需求 的 测量 弯曲 波 的 方法 ， 或 者 测试 触 控 力 的 新 途径 ) ， 
不 断 优 化 触 探 过程 〈 比 如 缩短 了 触 控 的 反应 时 间 ) ， 不 断 地 引入 新 的 制造 材料 〈 比 如 新 的 导 
电 玻 璃 可 以 将 投射 电容 式 触 控 模块 的 成 本 降低 将 近 一 半 )。 诸 如 此 类 的 创新 行为 不 断 地 提升 
着 触 控 技术 领域 的 潜在 发 展 空 间 。 以 下 的 几 个 方面 可 以 帮助 我 们 了 解 触 控 拉 术 的 未 来 走向 : 
。 触 控 技术 的 应 用 范围 大 大 地 拓宽 了 ， 从 lin 便携 式 设备 到 200in 的 投影 屏幕 都 可 以 找 
触 控 技 术 的 用 武之 地 。 

。 将 触摸 行为 和 触摸 物体 完全 整合 。 
租 和 人 式 触 控 技 术 以 更 低 的 成 本 和 更 高 的 收益 对 分 离 式 触 控 技术 形成 强 有 力 的 将 争 。 
。 投射 电容 式 触 控 技 术 不 断 完善 增强 ， 可 以 将 2 号 铅笔 作为 感知 的 对 象 。 
© 触 控 技术 包括 了 更 多 在 图 2. 6 中 所 示 的 感知 功能 。 
© 能 将 2D 触 控 、3D 触 控 以 及 其 他 交互 方式 进行 无 颖 对接 。 
使 更 多 非 透 明 物 具有 触 敏 的 功能 ， 任 何 物体 都 可 以 感知 触摸。 
。 成 本 ,尤其 是 大 屏幕 触 控 方面 的 成 本 更 低 。 
不 断 改善 的 软件 开发 环境 使 得 创造 更 快 更 简便 的 用 户 体 验 变 得 可 行 ( 即 触 摸 更 为 稳 
定 流畅 ， 用 户 完 全 不 需要 思考 ， 感 觉 触摸 起 来 如 同行 云 流水 般 自 然 ) 。 


2.3 触 控 技术 的 历史 


触 控 技术 有 着 丰富 的 发 展 历史 ， 对 其 有 6 种 基本 的 触 控 技术 、 每 种 都 经 历 了 不 同 的 变化 
过 程 ， 我 们 并 不 感到 奇怪 。 表 2. 3 展现 了 从 1965 年 到 现在 (将 近 50 年 !) 触 控 技 术 的 历史 。 
此 表 列 出 了 6 种 基本 的 技术 类 型 ， 对 于 每 一 种 技术 的 发 明 或 者 商业 化 起 到 了 重要 作用 的 公司 
或 者 机 构 都 按 年 代 顺 序列 出 ， 并 且 附 上 了 一 些 简 要 的 说 明 。 
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30 ”实感 交互 人工 智能 下 的 人 机 交互 技术 
表 2.3 本 表 在 已 发 行 的 资料 中 最 全 面 地 记录 了 6 种 基本 触 控 技术 在 历史 上 起 到 过 的 
重要 作用 的 公司 。 表 中 对 每 个 重要 的 公司 都 会 附 上 一 句 话 来 描述 其 贡献 并 注 明 相应 的 年 份 
公司 名 称 重要 贡献 年 份 
电容 式 技术 
i 第 一 个 公开 使 用 透明 触摸 屏 的 机 构 (在 空中 交通 监控 
英国 皇家 雷达 研究 院 ohnson = 
EERIE (E A Johnson) | 终端 的 显示 屏 上 使 用 了 互 电容 式 技术 )Dl 
第 二 个 使 用 了 互 电容 式 技术 的 机 构 (应 用 在 质子 加 
欧洲 核子 研究 组 织 (Bent Stumpe) 本 用 了 互 电容 趟 技术 的 机 构 〈 应 用 在 质子 加 速 1977 
MicroTouch Systems 公司 (2001 年 被 pe pe Se [8] 7 FEAR 
Dynapro Thin Films 公司 (在 2000 年 被 | ”第 一 家 将 互 电 容 式 技术 商品 化 的 机 构 (这 项 技术 后 更 20 世纪 90 44è H 
3M 和 触 控 公司 收购 ) 名 为 3M 近 场 影像 技术 ) 
Zytronic 公司 (最 先 从 英国 发 明 家 | 第 一 次 将 自 电 容 式 大 画幅 技术 和 互 电 容 式 大 画幅 技术 (ies adie 
Ronald Binstead 处 获得 专利 权 ) KAT”! , 
Visual Planet 公司 (第 二 家 从 Ronald], meer Se ee pp ee ie ee [9] 
Binstead 处 购买 专利 权 的 企业 ) 第 二 家 将 自 HAN 大 画幅 技术 投入 T 场 的 企业 9 2003 
ouc! 公 F, 年 acom - i 
Ma hKO 公司 (2007 年 被 Wacom 收 | 发 明了 反 向 斜 铺 场 电容 技术 (RRFC™) 16) 2004 
苹果 公司 es 费 产品 中 使 用 互 电容 式 p - cap 技术 (iPhone ane 
Fpl) 
电阻 式 技术 
ee 最 先 发 明 了 透明 模拟 电阻 式 触 摸 屏 (3 线 式 ) ， 但 是 从 
西屋 电气 公司 未 投入 市 场 D1 1967 
最 先 推 出 了 数字 化 矩阵 模拟 电阻 式 技术 ,也 有 可 能 是 
ierracin/ Intrex 公司 en ` j , A 1973; 197 
A 最 先 将 四 线 模拟 电阻 式 技术 投入 市 场 的 企业 [2 We 
Elographics 公司 (1986 年 被 Raychem 
公司 收购 ， 后 者 在 1999 年 被 Tyco Elec- 
tronics 公司 收购 ， 而 Tyco Electronics A| ”最 先 发 明 并 且 商 品 化 五 线 模拟 电阻 式 技术 [821 1977 - 1982 
司 又 在 2012 年 剥离 出 一 个 子 公 司 Elo 
Touch Solutions ) 
JazzMutant 公司 (2007 年 更 名 为 Stan-| ”最 先 推出 了 数字 化 矩阵 模拟 电阻 式 技术 ， 也 有 可 能 是 2008 
tum) 最 先 将 四 线 模拟 电阻 式 技术 投入 市 场 的 企业 5 
JTouch 公司 最 先 在 消费 电子 产品 中 使 用 了 多 触 点 电阻 式 技术 2008 
声学 触 控 技术 
Zenith 公司 (SAW 专利 在 1987 年 被 
Elographics/ Raychem 公司 收购 ， 后 者 在 发 明了 表面 声波 (SAW) 触 控 技术 (SAW 触 控 技 术 
1999 年 被 Tyco Electronics 公司 收购 ， 而 的 发 明 者 Robert Adler 在 1956 年 发 明了 电视 机 超声 波 远 1985 
Tyco Electronics 又 在 2012 年 剥离 出 一 个 Pere te 48 ) [33,34] 
子 公 司 Elo Touch Solutions ) 
联合 发 明了 采样 弯曲 波 触 控 技 术 (发 明 者 Tony Bick - 
SoundTouch Lid. ( F 2004 年 被 Elo Hardie，2006 年 此 项 技术 被 Elo Touch Solutions 公司 更 名 21 世纪 初 


Touch Solutions 公司 收购 ) 





为 声波 脉冲 识别 


(APR) 技术 ) 4°! 



























































































































































































































































































































































( 续 ) 
公司 名 称 重要 贡献 年 份 
声学 触 控 技术 
= 、 联合 发 明了 采样 弯曲 波 触 控 技术 (原名 称 为 Rever- 
P RER 
Sensitive Object = 司 《 于 2010 年 被 了 Sys™ , Jat Elo Touch Solutions 公司 更 名 为 声波 脉冲 识别 21 世纪 初 
Touch Solutions 公司 收购 ) 
(APR) R)I" 
NXT PLC 公司 (于 2003 年 将 专利 许可 | 第 一 家 推出 运用 实时 弯曲 波 触 控 技术 产品 的 公司 (此 sine 
转让 给 3M Touch Systems) 项 技术 由 3M 触 控 公司 命名 为 色散 信号 技术 (DST) ) [21 
ETETE 第 一 次 使 用 了 红外 触 控 技术 (第 五 代 PLATO 计算 机 辅 
| ， 1972 
伊利 诺 伊 大 学 助 指令 系统 ) [31 9 
Sperry Rand 公司 采用 CCD， 发 明了 摄像 视觉 触 控 技 术 1979 
PAN 第 一 次 在 商品 中 采用 了 红外 触 控 技 术 (HP - 150 微型 
惠普 公司 计算 机 ) [41 1983 
Carroll Touch 公司 (1984 年 被 AMP 公 
司 收购 ， 后 者 于 1999 年 被 Tyco Electron- tie Fa ook, panes 
ice 公司 收购， 然后 在 2012 年 剥离 出 了 | 大 范 转 地 在 产品 中 使 用 红外 触 控 技术 1980 ~ 1999 
Touch Solutions 公司 ) 
Poa Sana 公司 HR TV PAT PEARS 1997 ~ 1999 
SMART Technologies 公司 联合 发 明了 运用 CMOS 技术 的 摄像 光学 触 控 技术 2003 
| c 联合 发 明了 运用 CMOS 技术 的 摄像 光学 触 控 技术 ;并 
INF te ; 
nna 司 (2010 年 被 SMART | 为 惠普 公司 的 第 一 台 消费 性 电脑 提供 了 光学 触 控 技 术 | 。 2003; 2007 
a ( TouchSmart 一 体式 电脑 系列 ) 
ee | 联合 发 明了 运用 CMOS 技术 的 摄像 光学 触 控 技术 ; 并 
ING an Mil b i 
E MEARS ”为 惠普 公司 的 第 一 台 消费 电脑 提供 了 光学 能 控 技术 2006 
eee (TouchSmart 一 体式 电脑 系列 ) 
微软 公司 推出 第 一 台 有 投影 的 视觉 触 控 产品 (微软 Surface 2007 
V1.0) 
RPO 公司 (于 2007 年 创立 ; 2012 年 
oe 之 明 红 外 波导 和 触 控 技 术 的 第 二 家 企业 5 4 2007 ~ 2012 
资产 清算 ) 发 明 红 外 波导 触 控 技术 自 家 企业 
PQ Labs 公司 第 一 家 推出 采用 多 点 红外 触 控 技术 产品 的 企业 '*3] 2009 
FlatFrog 公司 发 明了 平面 散射 检测 光学 触 控 技术 [551 2007 
Baanto 公司 最 先 推出 运用 二 极 管 视觉 触 控 技术 的 产品 (34 2011 
MultiTouch 公司 最 先 推出 运用 集成 相机 视觉 触 控 技术 的 产品 [1 2011 
第 一 个 将 内 嵌 光 感 视觉 触 控 技 术 运 用 到 产品 中 
三 星 公 司 (SUR40 产品 ， 使 用 于 Microsoft Surface 2.0， 随 后 在 2012 2012 
年 被 命名 为 Microsoft PixelSense ) [60,77] 
MAREAREN 
Planar 公司 EDRR TAR ERE RA 306! 2011 
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( 续 ) 
公司 名 称 重要 贡献 年 份 
HA sh He Ae AR 
东芝 松下 显示 器 公司 第 一 个 声称 发 明了 内 肯 光 感 技术 的 公司 [1 2003 
第 一 个 推出 了 采用 任意 形式 的 内 内 触 控 技 术 的 产品 
a Fpa 囊 用 压力 电容 ) (64-951. yr 
ZEAN CHE STIO 数码 相 可 中 使 用 压力 电容 ) ; 第 一 个 推出 2009; 2010 
TIM A HAS p - cap 的 产品 (S8500 Wave 型 号 的 
OLED 显示 屏 ) 
ae SR ME FD A GRO AY Pi (PC - NJ70A 
夏普 公司 上 上网本， 2009 
= BAE TOR ALOE REAR PE m ( 21. Sin LCD 
IDTI 公 局 2010 
监视 器 ) 1 
KAT ASR ASC ASR (最 先 用 在 索尼 的 智 
索尼 公司 〈 目 前 属于 Japan Display) 能 手机 Xperia P™ 和 HTC 的 产品 EVO Design 4G™ 2012 
中 ) [71] 
新 思 国 际 公司 和 索尼 公司 一 起 开发 了 混合 式 电容 技术 '%"70] 2012 
s .人 EH T% Hn -7 H Z% > 的 | =y iPh > 
ERZAR] Bo 个 推 TOR FAW fe BO AHR AR AY = m ( iPhone wD 
其 他 触 控 技术 
IBM 公司 第 一 个 推出 了 采用 压力 传 感 触 控 技 术 的 产品 (TouchS- ea 
elect™ overlay) 
MyOrigo 公司 (2004 年 出 售 公 司 管理 
IL; 2005 年 于 芬兰 重 开 ，2006 年 倒闭 并 | 目前 为 止 唯一 一 个 较为 成 熟 的 压力 传 感 触 控 技 术 供 应 3009 
在 美国 重 开 ， 被 TPK 公司 在 2009 年 收 | 商 (不 考虑 几 个 初创 公司 ) E 
购 ) 
SI 公司 (2008 年 从 Vissumo 公司 eee 、 
OSTATI C2008 TE Visumo FTE) 第 一 个 成 功 推出 了 运用 压力 传 感 技术 的 产品 (收费 站 
剥离 出 来 ，2009 年 倒闭 ); 2010 年 被 的 触 搜 终 端 ) Pool 2008 
Beijer Electronics 公司 收购 JARRE) 
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2.4.1 投射 电容 式 触 控 技 术 (编号 1) 


投射 电容 式 触 控 搁 术 的 历史 对 于 一 般 人 而 言 并 没有 其 他 触 控 技术 那么 清晰 ， 主 要 是 因为 
苹果 公司 在 iPhone 手机 中 对 这 一 技术 的 创新 应 用 太 出 名 了 ， 以 至 于 模糊 了 对 该 技术 之 前 使 
用 的 关注 。 通 过 电容 变化 来 进行 触觉 感知 的 概念 其 实 早 在 20 世纪 60 年 代 就 提出 了 。 实 际 
上 ,英国 皇家 雷达 研究 院 在 1965 年 就 发 明了 透明 触摸 屏 ， 并 将 其 应 用 在 英国 的 空中 交通 运 
输 系统 控制 终端 中 ， 这 项 技术 在 现 如 今 就 是 被 我 们 所 熟知 的 互 电容 技术 。 可 考据 的 对 互 
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电容 的 第 二 次 应 用 是 在 1978 年 欧洲 核子 研究 组 织 的 质子 加 速 器 中 [7] 。 表 面 电 容 式 触 控 技术 
( 带 未 图 案 化 的 触摸 屏 ) 则 是 在 20 世纪 80 年 代 中 期 被 MicroTouch Systems ZAI ATA 。 
在 20 世纪 90 年 代 中 期 ， 几 个 美国 公司 开发 出 多 层 复合 薄膜 透明 电容 触摸 屏 (ITO， 是 如 今 
投射 电容 式 触摸 屏 的 基本 材料 ) 。 其 中 的 两 个 公司 Dynapro Thin Films 和 MicroTouch Systems 
分 别 在 2000 年 和 2001 年 被 3M 公司 收购 ， 组 成 了 3M Touch Systems。Dynapro Thin Films 公司 
的 投射 电容 式 技 术 更 名 为 “ 近 场 成 像 触 摸 屏 技术 (简称 NFI)”， 这 是 3M 公司 在 2001 年 的 
第 一 个 投射 电容 式 触 摸 屏 产品 。 在 1994 年 ， 英 国 独立 发 明 家 Ronald Peter Binstead 发 明了 以 
超 细微 (25pm) 电线 作 感 应 电极 的 互 电容 技术 ?1 ， 并 将 这 种 技术 分 别 在 1998 年 和 2003 年 
授权 给 两 家 英国 公司 Zytronic 和 Visual Planet 使 用 ， 直 到 今天 这 两 家 公司 依然 在 销售 这 项 技 
术 。 在 苹果 公司 将 投射 电容 式 触 控 技 术 应 用 在 第 一 台 iPhone 手机 之 前 ， 这 项 技术 一 直 默 默 
FERS! 。 苹 果 手 机 极致 的 用 户 体验 赢得 了 消费 者 的 欢心 ， 从 而 促使 其 他 智能 手机 生产 厂家 
开始 接受 这 项 技术 。 在 接 下 来 的 五 年 中 ， 消 费 者 为 投射 电容 式 触 控 技术 使 用 的 满意 度 设 定 了 
一 项 极 高 的 标准 : 

。 可 以 实现 多 点 同时 触 控 (“多 点 触 控 ”最 初 仅仅 应 用 在 图 像 放 大 上 )。 

。 对 极其 轻 的 触 磁 也 能 做 出 反应 (不 需要 使 用 者 出 力 ) 。 

。 屏幕 表面 平滑 。 

。 优越 的 视觉 体验 (特别 是 相对 于 模拟 电阻 式 触 控 技 术 而 言 ) 。 

。 屏幕 深 动 快速 而 流畅 。 

。 屏幕 坚固 并 且 耐 用 。 

© 触 控 功 能 与 手机 充分 整合 ， 使 用 起 来 不 费力 且 充 满 乐 趣 。 

2.4.1.1 投射 电容 式 技术 的 原理 

投射 电容 式 触 控 技 术 主 要 有 两 种 ， 自 电容 式 和 互 电容 式 。 图 2.7 展示 了 这 两 种 形式 的 触 控 
技术 的 原理 。 自 电容 式 技术 ( 见 图 2.7a) 把 被 感应 的 物体 (如 手指 ) 作为 男 一 个 感应 电极 。 
当 手 指 触 磁 屏 幕 时 可 在 手指 和 传 感 电 极 之 间 产 后 一 个 小 量 电荷 。 相 反 地 ， 互 电容 式 技术 (ILA 
2.7b) 测量 的 是 一 对 电极 ， 它 扫描 到 的 是 通过 相 邻 电极 的 耦合 产生 的 电容 。 当 被 感觉 的 手指 靠 
近 从 一 个 电极 到 另 一 个 电极 的 电场 线 时 ， 互 电容 的 变化 被 感觉 到 ， 从 而 报告 触 磁 位置 1] 。 

两 种 触 控 技术 的 最 主要 区 别 在 于 电极 的 感应 方式 ， 而 并 不 是 电极 的 排列 方式 。 在 不 考虑 
电极 排列 方式 和 电极 数量 的 情况 下 ， 在 自 电 容 式 触摸 屏 中 的 电极 是 一 次 感应 一 个 。 例 如 ， 就 
算 电 极 按 照 X 轴 -Y 轴 和 矩阵 进行 排列 ， 检 测 电 极 的 时 候 也 是 先 逐 个 检测 完 X 轴 上 的 电极 再 
逐个 检测 Y 轴 上 的 电极 。 当 手指 触摸 到 屏幕 的 时 候 ， 最 近 的 X 电极 和 Y 电极 都 会 被 探测 产 
生 一 个 电容 峰 波 。 但 是 ， 如 图 2. 7c 所 示 ， 当 两 个 以 上 的 手指 以 对 角 线 方向 碰 到 触摸 屏 的 时 
候 ， 屏 幕 上 的 两 个 点 都 会 检测 到 峰 波 ， 于 是 “ 鬼 点 ” ( 即 相 对 于 真实 触 点 位 置 的 “ 假 性 触 
Ae”) 和 “真性 触 碰 ” 都 会 同时 被 检测 到 。 

要 知道 的 是 ， 这 一 缺点 并 不 能 排除 在 自 电 容 式 触摸 屏 上 进行 多 点 触 控 的 可 能 性 。 模 糊 的 
点 位 置 不 好 判断 ， 但 是 检测 触 点 的 移动 方向 是 可 以 实现 的 。 这 样 一 来 ， 即 使 屏幕 上 的 两 个 
点 产生 了 四 个 峰 波 ,但 只 要 这 对 触 点 的 移动 方向 是 呈 对 角 线 的 ， 那 么 用 户 想 要 放大 图 像 的 
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无 触摸 a i 触摸 i 







P-A 


PS 
b> 
真性 触摸 @ wren 
c) 
图 2.7 这 些 图 片 展 示 了 自 电容 和 互 电 容 的 区 别 。a) 自 电 容 本 身 包含 一 个 单独 的 对 地 电容 
(Cs); 当 手 指 触 磁 到 屏幕 时 增加 一 个 人 体 对 地 电容 (Cu ) 。b) 互 电容 包含 两 个 电极 之 间 的 电容 ; 当 
手指 触 磁 到 屏幕 时 两 个 电极 之 间 的 电容 会 减少 。 改 编 自 3M Touch Systems, c) 自 电容 技术 检测 两 轴 
上 的 每 一 个 电极 ， 因 此 当 两 轴 上 出 现 多 个 峰 波 时 无 法 区 分 “真性 触 磁 ” 和 “ 假 性 触 碰 ”(“ 鬼 点 ”) 
(图 示 总 共 在 6 x6 矩阵 上 测量 12 次 )。 互 电容 技术 检测 每 个 电极 的 交点 ， 因 此 可 以 探测 出 多 个 触 点 
的 准确 位 置 (图 示 总 共 在 6 x 6 和 矩阵 上 测量 36 次 ) 。 数 据 来 源 : 改编 自 Atmel 
间 令 就 能 够 被 识别 并 且 完 成 。 因 为 这 一 点 ， 再 加 上 自 电 容 式 触 控 技术 成 本 比 互 电容 式 触 控 技 
术 更 低 ， 前 者 经 常 被 应 用 在 低 端 的 手机 生产 上 。 
与 此 相对 应 ， 互 电容 式 触 摸 屏 上 每 个 电极 的 交点 都 是 单独 被 检测 的 。 通 常 这 可 以 通过 架 
构 两 层 导 电 层 一 一 驱动 线 和 感 测 线 来 实现 ， 运 作 上 会 轮流 驱动 一 条 X 轴 驱 动 线 ， 并 测量 与 
这 条 驱动 线 交 错 的 了 感 测 线 是 否 有 某 点 发 生 电 容 耦 合 现象 。 这 一 测量 方法 可 以 获知 确切 的 
触 点 位 置 。 这 使 得 互 电容 式 触 控 技 术 成 为 厂商 们 制造 高 端 移动 设备 的 首选 。 























































































































2.4.1.2 投射 电容 式 控 制 器 

投射 电容 式 技术 对 电极 的 检测 都 是 通过 控制 器 来 进行 的 。 图 2. 8 展示 了 一 个 互 电容 式 触 
摸 屏 控制 器 的 基本 结构 。 感 应 器 驱动 会 逐个 激活 X 轴 上 的 电极 ; 模拟 前 端 (AFE) 则 负责 
测量 Y 轴 和 X 轴 交 汇 处 的 电极 ， 得 出 的 数据 会 传送 给 模拟 数字 转换 器 (ADC) 。 然 后 由 数字 
言 号 处 理 器 (DSP) 经 过 复杂 而 精密 的 运算 对 这 一 系列 数据 进行 处 理 ， 再 伴随 着 一 系列 诸如 
“ 手 握 压力 抑制 〈 消 除 人 手 握 住 无 边 手 机 时 对 屏幕 产生 压力 的 影响 )” 和 “防止 误 触 〈 消 除 
意识 的 触 碰 ) ”功能 的 处 理 ， 最 后 就 将 信号 准确 地 反馈 到 触 碰 点 或 者 触 碰 区 域 上 。 投 射电 
容 式 控 制 器 是 专用 集成 电路 (ASIC) 的 典型 范例 [1 。 


| 模拟 前 模 - 数 数字 信号 主机 
端 (AFE) 转换 器 处 理 器 接口 
(ADC) (DSP) 
传感器 驱动 


触摸 传感器 触摸 控制 器 
图 2.8 图 的 右边 部 分 显示 了 互 电容 式 触 摸 屏 的 控制 器 基本 结构 。C， 代表 一 个 交叉 电极 对 的 互 电容 
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更 多 的 创新 发 生 在 触 控 控制 器 设计 领域 而 不 是 传感器 的 设计 领域 ， 那 是 因为 触 控 控制 需 
决定 着 触摸 屏 的 灵敏 度 ， 而 传 感 絮 则 仪 仅 是 接收 电容 数据 的 一 个 元 件 。 但 是 ， 传 感 絮 的 几何 
学 结构 一 直 对 触 控 技术 的 提升 贡献 巨大 。 三 个 最 出 名 的 投射 电容 式 控制 器 供应 商 ( Atmel， 
Cypress，Synaptics ， 在 2012 年 市 面 上 基本 所 有 的 手机 生产 商都 是 采用 这 三 大 供应 商 的 供 货 ， 
除了 苹果 公司 一 一 其 投射 电容 式 控制 器 是 自主 设计 并 由 美国 博通 公司 生产 的 )521 都 是 美国 
公司 。 这 是 投射 电容 式 控制 器 产业 愈 发 年 轻 的 一 个 信号 ， 因 为 大 部 分 最 终 商 品 化 的 系统 级 专 
用 集成 电路 的 供应 商 基地 都 在 亚洲 。 投 射电 容 式 控制 如 领域 最 近 的 一 次 创新 是 在 2012 ~ 
2013 年 ， 这 期 间 触摸 系统 的 信 噪 比 大 幅度 提升 。 这 一 创新 的 价值 在 于 使 得 投射 电容 式 触 摸 
屏 可 以 支持 笔尖 仅 为 2mm 的 触摸 笔 进行 输入 ， 而 不 仅仅 是 手指 。 

如 果 一 部 智能 手机 能 够 支持 细微 笔尖 的 输入 ,那么 它 的 价值 就 大 大 提升 了 。 因 为 用 户 可 
以 利用 这 项 功能 进行 数据 的 “创造 (画图 、 记 笔记 等 )”， 而 不 仅仅 是 被 动 地 从 传媒 获取 信 
息 。 在 亚洲 ， 人 们 经 常 需要 在 智能 手机 上 输入 汉字 字符 ， 而 仅仅 用 手指 无 法 实现 这 一 点 ， 因 
为 在 手写 时 指 尖 会 挡住 正在 写 的 字 。 细 微 笔 尖 的 触摸 笔 对 于 并 不 是 为 触摸 而 设计 的 操作 系统 
而 言 也 是 一 种 很 好 的 输入 设备 〈 例 如 ，Windows 8 的 应 用 软件 ) 。 

2. 4. 1.3 投射 电容 式 传感器 

投射 电容 式 传感器 由 一 套 透 明 的 可 传导 电极 的 导电 玻璃 组 成 ， 这 样 的 构成 可 以 让 控制 器 
确定 触摸 点 的 位 置 。 在 自 电 容 触摸 屏 里 ， 导 电 玻 璃 通常 被 制造 成 一 层 或 者 两 层 ， 每 一 层 上 都 
存在 着 电极 。 当 只 有 单 层 电极 时 ， 每 一 个 电极 都 代表 着 一 对 不 同 的 坐标 并 且 和 控制 器 相连 
接 。 当 具有 两 层 导 电 层 时 ， 电 极 以 行 和 列 的 形式 排列 。 每 一 行 和 每 一 列 的 交点 代表 着 一 对 独 
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一 无 二 的 接触 点 坐标 。 但 是 就 如 前 一 节 所 提 到 的 ， 在 自 电 容 触 屏 中 ， 检 测 的 是 每 一 个 单独 的 
电极 而 不 是 电极 的 交 又 点 ， 因 此 该 结构 的 多 点 触 控 的 功能 是 受 限 的 。 

在 互 电容 式 触 摸 屏 里 ， 有 两 种 最 常见 的 电极 的 分 布 形式 : 

1) 在 空间 上 被 绝缘 层 或 薄膜 或 玻璃 基板 分 隔 开 的 纵横 交错 的 垂直 网 格 。 

2) 连锁 萎 形 结构 ， 相 邻 正 菱形 的 两 角 由 导线 相连 。 

当 该 蓉 形 结构 用 于 两 个 隔 开 的 表面 时 ， 每 个 表面 的 操作 是 很 直接 的 。 但 为 了 使 触摸 屏 尽 
可 能 的 薄 ， 该 结构 最 常用 于 单一 的 共 面 层 。 这 时 的 搭桥 就 需要 额外 的 处 理 步骤 以 实现 在 跨越 
点 处 的 绝缘 。 

图 2. 9 展示 了 典型 的 互 电容 式 触 摸 屏 的 县 层 。 为 了 使 其 和 本 章 内 其 他 类 似 的 图 示 尽 可 能 
的 简单 易 懂 ， 我们 做 了 如 下 的 一 些 简 化 : 

1) 电极 分 布 (第 三 行 和 第 五 行 ) 呈 分 离 的 矩形 网 格 状 而 不 是 更 为 常见 的 连锁 萎 形 状 ; 
第 三 行 显示 了 YY 电极 的 端 视图 ， 第 五 行 则 是 一 个 X 电极 的 侧 视 图 。 

2) 常用 的 兴学 透明 黏合 剂 (OCA) 省 略 ;在 第 二 行 和 第 三 行 中 间 通 常 夹 有 OCA. 

3) 图 示 的 触摸 屏 使 用 玻璃 基板 ;许多 移动 设备 (特别 是 较 大 型 的 ) 的 基板 通常 有 两 层 
FO AR FA RZ (PET) 薄膜 ， 每 个 对 应 每 组 电极 。 

4) LCD 内 的 薄膜 晶体 管 (TFT) 下 面 各 层次 (如 底部 偏光 器 、 增 亮 膜 、 背 光 等 ) 均 


省 略 。 
1 玻璃 盖 片 (“镜片 ”) 
2 装饰 
5m TO ew (Y) 电极 (TO) 
a 触 板 玻璃 
? 驱动 (X) 电极 (ITO) 


6 LCD 偏光 镜 
7 色彩 滤 镜 
8 色彩 过 滤器 
9 

0 

1 









































液晶 
液晶 薄膜 晶体 管 (TFT) 
TFT IKS 















































图 2.9 ”一 个 典型 的 互 电容 式 触摸 屏 受 层 简化 图 ,位 于 LCD 简化 图 之 上 。 接 触 
传感器 基板 〈 第 四 行 ) 是 一 个 两 边 有 ITO 的 独立 玻璃 层 























图 2. 9 的 一 个 重要 方面 是 展示 了 触摸 屏 在 个 层 中 增加 了 第 四 层 玻璃 。 所 有 LCD 都 使 用 
两 层 玻璃 ， 而 基本 上 每 个 移动 装置 都 增加 第 三 层 玻璃 〈 或 塑料 ) 作为 保护 和 装饰 层 覆 盖 在 
LCD 上 。 增 加 第 四 层 玻璃 总 的 来 说 没有 必要 ， 因 为 其 增加 了 重量 、 厚 度 和 设备 成 本 。 有 以 
下 两 种 移 除 第 四 层 玻璃 的 基本 方法 : 

1) 触摸 屏 产 业 使 用 的 方法 ， 统 称 为 “ 单 玻璃 方案 ”(0GS) ， 但 是 不 同 公 司 的 具体 叫 法 
不 同 ， 比 如 有 叫 “ 传 感 器 玻璃 盖 片 ”的 。 

2) LCD 产业 使 用 的 方法 ， 称 为 “能 入 式 触 控 ”。 这 些 方法 之 间 存 在 直接 竞争 。 

图 2. 10 展示 了 0GS， 其 中 触摸 屏 电 极 被 移 至 装饰 玻璃 盖 片 (“镜片”) 的 底面 :231 。 该 





方案 中 ， 触 摸 屏 制 造 商 要 么 从 合适 的 供应 商 处 购买 装饰 玻璃 盖 片 ， 要 么 就 垂直 整合 和 获取 生 
成 玻璃 盖 片 必要 的 设备 或 技术 。 然 后 触摸 屏 制 造 商 生产 触 探 模块 〈 传 感 器 和 控制 器 ) ， 把 装 
饰 玻璃 盖 片 作为 一 个 基板 使 用 并 将 整个 装配 销售 给 移动 设备 OEM/ODM (触摸 屏 制造 商 可 能 
也 会 购买 设备 OEM/ODM 规定 的 LCD 并 整合 两 者 ， 以 使 OEM/ODM 增值 ) OGS 的 好 处 是 
制造 商 可 以 持续 从 生产 触 控 模块 中 获取 利润 而 不 是 把 利润 送 给 LCD 产业 。 

玻璃 盖 片 (“镜片 ”) 

装饰 

感应 (Y) 电极 (ITO) 

绝缘 层 

驱动 (X) 电极 (ITO) 




















LCD 偏光 镜 


10 液晶 薄膜 晶体 管 (TFT) 
11 TFTA DHS 














图 2. 10 OGS HAAS oR ANB ILA, MTSB 2.9 所 示 的 同样 的 LCD 之 
上 。 接 触 传感器 装 在 屏幕 玻璃 盖 片 〈 第 一 行 ) 的 底面 。 该 结构 减少 了 图 2.9 中 触 控 传感器 
的 独立 玻璃 层 


图 2. 11 展示 了 最 简化 形式 的 藤 入 式 触 措 屏 ( 称 为 “外 组")， 其 中 第 四 层 玻 璃 盖 片 因为 
触摸 屏 电 极 被 装 在 彩色 过 滤 玻 璃 盖 片 上 、LCD 顶层 偏光 镜 下 而 得 以 移 除 。 注 意外 岗 结 构 具 
有 与 图 2.9 和 图 2. 10 所 示 的 投射 电容 式 结构 完全 相同 的 功能 ， 只 是 电极 的 位 置 不 同 。 外 髓 
方案 的 优势 与 OGS 完全 相同 : 移动 设备 由 于 移 除 第 四 层 玻 璃 而 更 轻 注 。 外 舱 方 案 对 LCD H 
造 商 的 优势 是 由 于 触 控 功 能 的 附加 值 增加 ， 他 们 的 利润 也 将 增加 (但 是 触摸 屏 制造 商 的 利 
润 将 减少 )。 
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片 的 上 方 〈 第 七 行 ) 、 显 示 器 顶部 偏光 镜 的 下 方 〈 第 三 行 ) 。 该 触摸 屏 的 功能 与 图 2. 9 和 图 
2. 10 所 示 相 同 ， 只 是 各 传感器 层 的 位 置 有 变化 


艇 入 式 触 控 的 另 一 个 有 利 因素 是 ， 触 控 传 感 器 与 LCD 的 整合 使 我 们 开始 考虑 把 触 控 控 
制 器 与 屏幕 驱动 器 整合 到 一 个 单独 的 ASIC 中 ， 或 至 少 建立 起 两 个 芯片 的 直接 联系 以 促进 协 
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作 。 产 量 是 外 骨 式 触 控 的 重大 问题 ， 因 为 在 彩色 过 滤 玻 璃 盖 片 上 存储 电极 大 大 地 增加 了 玻璃 
盖 片 的 价值 ， 如 彩色 过 滤 存 储 或 解除 电极 存储 有 缺陷 ， 两 者 都 要 丢弃 。 生 产 线 管理 也 会 成 为 
LCD 制造 商 面 对 的 更 为 复杂 的 问题 ， 因 为 他 们 可 能 需要 推出 10 种 不 同 的 模型 ， 每 种 要 有 
500 万 的 数量 并 装饰 上 独特 的 玻璃 盖 片 ， 而 不 是 给 设备 生产 商 输送 5000 万 相同 的 LCD, 

目前 普遍 认为 触 控 功能 与 LCD 的 整合 会 自然 驱使 触 控 技术 优化 ， 成 本 降低 。 以 上 讨论 
明显 指出 了 般 入 式 触 控 并 不 一 定 比 OGS 更 好 。 两 者 各 有 需要 考虑 的 因素 ， 且 有 些 因素 不 仅 
是 技术 层面 的 ， 更 是 涉及 市 场 和 运行 层面 的 问题 。 触 控 模块 制造 商 与 LCD 制造 商 之 间 的 竞 
争 将 成 为 各 种 般 入 式 触 控 技术 发 展 的 主要 因素 。 在 2013 年 第 二 季度 的 触 控 预 测 中 ，Display- 
Search 估计 各 类 舱 入 式 触 控 到 2017 年 前 将 仅 占 到 所 有 投射 电容 式 触摸 屏 单 位 出 货 量 
的 26% [21。 

2.4.1.4 取代 ITO 的 投射 电容 式 线 排 传感器 

在 上 述 所 有 的 关于 投射 电容 式 触摸 传感器 的 讨论 中 ，ITO 被 认为 是 制 成 导电 玻璃 的 材 
料 。 但 随 着 触摸 屏 变 得 越 来 越 大 ，ITO 的 使 用 难度 也 随 之 增加 ， 因 为 相对 较 高 的 基板 电阻 
(50 ~2000/m?) 减 慢 了 触 敏 处 理 过 程 ， 并 且 降 低 了 产量 。 实 质 上 增加 了 触摸 屏 的 成 本 。 除 
了 极 少 的 情况 下 ， 用 ITO 制 成 的 触摸 屏 几 乎 没有 32in 以 上 的 。 

至 少 近 十 年 内 ， 大 屏 (大 于 32in) 投射 电容 式 触摸 屏 的 导体 材料 的 选择 一 直 是 10pm 的 
铜 线 。 铀 线 并 非 透 明 ， 但 直径 是 10km， 接 近 人 类 视觉 的 较 低 区 分 度 指数 ， 因 此 几乎 无 法 看 
到 。40 ~ 100in 的 均 有 自 电 容 (1 ~ 2 个 触 点 ) 和 互 电 容 (10 多 个 触 点 ) 两 种 铜 线 触 摸 屏 。 
大 多 数 情况 下 ， 用 在 大 型 触摸 屏 内 的 基板 是 一 层 塑料 薄膜 (通常 是 PET) 。10um 的 铜 线 电 
极 通常 由 一 个 自动 机 械 装置 铺 成 锯齿 形 的 两 层 ， 两 侧 间 放置 菜 种 绝缘 体 。 尽 管 触 摸 屏 感应 右 
可 能 是 以 一 卷 薄膜 的 形式 运输 到 合成 商 或 设备 制造 商 手 中 的 ， 但 是 薄膜 总 会 被 压 盖 在 基板 的 
背部 成 为 最 终 成 品 。 其 中 一 个 最 根本 的 原因 是 所 有 LCD 的 顶部 都 太 软 (A 2H 3H 的 铅 
笔 硬 度 ) ， 无 法 避免 触 碰 造成 的 意外 损坏 。 

2.4.1.5 投射 电容 式 触 控 模 块 

“ 触 控 模块 ”一 词 仅 应 用 于 分 离 式 触 摸 屏 ， 因 为 谍 入 式 触摸 屏 只 是 显示 器 整体 的 一 部 
分 。 前 面 主要 关注 了 投射 电容 式 触 摸 控制 器 和 传感器 ; 这 些 是 投射 电容 式 触 控 模 块 的 主要 元 
件 。 其 次 重要 的 触 控 模 块 元 件 是 连接 传感器 和 控制 器 的 挠 性 印 制 电路 (FPC) 。 触 摸 控 制 器 
一 般 安装 在 (和 一 些 无 源 元 件 一 起 ) FPC 上 ， 并 接近 于 传感器 以 弱化 噪声 拾取 。FPcC 的 另 
一 端 通常 被 插入 一 个 位 于 设备 主板 的 连接 器 。 

一 个 投射 电容 式 触 控 模 块 通常 以 两 种 方式 连接 到 显示 器 上 :“ 沿 框 贴 合 ”或 “全 贴 合 ”。 
第 一 种 方式 下 ， 将 两 边 带 黏 性 的 密封 垫 片 治 着 显示 屏 的 周边 粘 合 ， 再 把 触 控 模块 对 齐 显 示 
屏 ， 然 后 将 两 部 分 压 紧 。 这 会 在 显示 屏 触 控 传感器 中 间 留 出 空气 间隔 ; 该 间隔 的 范围 在 
0.25 ~ lmm 以 上 不 等 ， 取 决 于 显示 屏 的 大 小 。 这 种 沿 框 贴 合法 的 优点 是 工艺 成 本 低 且 产量 
高 ;缺点 是 它 会 产生 额外 的 反射 表面 ， 在 环境 光 强 时 将 严重 降低 图 像 质量 ， 整 个 装配 也 会 
稍 厚 。 

在 全 贴 合 方法 中 ， 显 示 屏 的 整个 上 表面 都 要 上 一 层 高 透明 的 黏合 剂 (干燥 或 液 状 ) 。 对 
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齐 之 后 ， 把 触 控 模 块 按压 在 显示 器 上 。 普 通 使 用 的 黏合 剂 有 很 多 种 ; 固化 方法 取决 于 类 型 。 
全 贴 合法 的 优势 是 光学 性 能 总 是 较 沿 框 贴 合法 更 高 ， 视 差 会 更 小 ， 而 且 表层 的 耐用 性 也 会 增 
强 〈 比 如 ， 它 的 规格 能 承受 一 个 球 从 更 高 处 落下 的 作用 力 ) 。 劣 势 是 该 工艺 的 成 本 高 、 产 
量 低 。 

今天 大 多 数 投射 电容 式 触 摸 屏 应 用 在 消费 者 使 用 的 设备 中 。 根 据 DisplaySearch 的 报告 ， 
2013 年 有 超过 92% 的 设备 是 智能 手机 和 平板 电脑 521 。 剩 下 的 消费 产品 包括 笔记 本 电脑 、 多 
合 一 桌面 电脑 、 便 携 式 媒体 播放 器 、 便 携 式 游戏 机 、 电 子 书 、 便 携 式 导 航 装 置 和 相机 。Dis- 
playSearch 还 称 ，2013 年 ， 不 到 1% 的 所 有 投射 电容 式 触 摸 屏 是 企业 (商用 ) RE, R 
这 种 悬殊 的 原因 是 基本 上 整个 投射 电容 式 触 控 模块 产业 都 在 聚焦 着 这 92% (智能 手机 和 平 
板 电脑 ) 。 这 意味 着 该 产业 对 小 批量 、 更 高 性 能 和 环境 规格 的 商业 应 用 并 不 感 兴趣 ， 即 使 企 
业 愿 意 为 每 台 设备 付出 更 多 的 成 本 。 

相 比 之 下 ， 线 排 大 型 触摸 屏 (1% 的 一 部 分 ) 的 应 用 常常 与 公众 交互 。 其 中 一 个 最 著名 
的 应 用 当 属 “橱窗 穿越 ”零售 ， 即 商家 在 非 营业 时 间 内 接近 淤 在 顾客 ， 让 顾客 通过 产品 选 
择 程序 来 跨越 店铺 橱窗 并 与 商家 交流 。 其 他 应 用 包括 店内 数码 广告 牌 ， 公 共 信 息 服 务 站 ， 如 
商场 目录 和 自动 贩卖 机 。 

投射 电容 式 触 控 技 术 的 优 缺 点 总 结 详 见 表 2.4。 

表 2.4 投射 电容 式 触 控 技 术 的 优 缺 点 















































































































































优点 缺点 
无 限 、 稳 定 的 多 点 触 控 (如 果 正 常 运 行 ) 成 本 高 (主要 是 传感器 ，ITO 替代 材料 会 帮助 减少 成 本 ) 
必须 有 一 定 的 接地 电容 (或 是 一 支 主动 式 触 控 

超 轻 的 触 碰 ( 零 压力 ) oo 定 的 接地 电容 (或 是 一 支 主动 式 触 控 
平滑 的 触 磁 表 面 (无 边 ) 难以 集成 (对 每 个 新 产品 需要 进行 彻底 的 参数 调整 ) 
非常 好 的 光学 性 能 ( 特别 是 和 模拟 电阻 比较 ) 因为 隐形 (ITO) 电极 而 难以 升级 到 32in 以 上 

完全 光滑 和 快速 的 滑动 (如 果 正 常 运行 ) 没有 绝对 的 压 感 ， 只 是 相对 的 手指 接触 面积 

耐用 的 触 控 界面 ， 不 受 刊 靖 和 其 他 很 多 表面 污染 物 的 影 
响 ( 受 保护 的 传感器 ) 

可 容许 水 在 屏幕 表面 流 过 (但 在 2013 年 的 消费 产品 中 很 























少 出 现 ) 
可 制 成 在 特别 厚 的 玻璃 基板 ( 约 为 20mm) 下 运行 


可 以 按照 NEMA -4 或 IP65 的 标准 密封 




















2.4.2 表面 电容 式 触 控 技 术 (编号 2) 


表面 电容 式 触 控 技术 由 MicroTouch Systems 公司 发 明 并 在 市 场 推 广 。 该 公司 成 立 于 1982 
年 ， 于 2001 年 由 3M 公司 收购 并 成 为 3M Touch Systems 旗下 的 一 个 公司 。 由 于 表面 电容 技术 
缺乏 在 模拟 电阻 式 触 摸 屏 (当时 主导 的 触 控 技术 ) 中 使 用 的 易 损 塑料 表层 ， 它 在 20 世纪 90 
年 代 被 认为 是 能 够 解决 高 难 触 控 应 用 问题 的 方法 。 

如 图 2. 12 所 示 ， 表 面 电 容 式 触 摸 屏 传感器 由 一 个 透明 导体 匀 质 薄板 组 成 ， 存 放 在 玻璃 
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基板 之 上 。 用 于 表面 导体 触摸 屏 的 最 常见 透明 导体 是 挫 锁 二 氧化 锡 (ATO ) ， 它 能 生成 一 个 
电阻 率 高 达 12000Q ~ 20000/ m? 的 高 度 均 匀 薄 板 。 该 技术 的 低 成 本 方案 是 使 用 电阻 较 低 的 
ITO 或 热 解 氧化 锡 (TO) 替代 。 导 电 涂 层 和 线性 化 的 电极 连接 并 被 其 包围 ， 这 些 电 极 是 由 
丝 网 印刷 的 银 熔 块 制 成 ， 被 连接 到 触摸 屏 的 活动 连接 点 (电极 线性 化 的 目的 是 纠正 其 电场 
内 的 本 身 的 非 线 性 (弯曲) 属性， 这 与 在 矩形 导电 层 内 角 到 角 流 动 的 电流 属性 有 关 ) 。 

导电 涂 层 和 线性 化 电极 被 一 层 焙 干 透明 的 绝缘 硬 膜 覆 六 ,该 硬 膜 通常 由 二 氧化 硅 制 成 ， 
还 有 防 炫 光 (AG) 功能 。 硬 膜 还 总 是 抗 粘连 的 ， 以 减少 手指 和 屏幕 表面 的 静电 摩擦 ; 这 使 
得 拖 搜 物体 〈 比 如 在 视频 扑克 游戏 中 的 卡片 ) 更 加 简单 。 

图 2. 12 还 显示 了 一 般 由 ITO 制 成 的 
备 选 保护 层 ; 其 目的 是 保护 导电 层 免 受 显 
示 屏 发 射 的 电磁 干扰 (EMI) 。 由 于 底部 
保护 层 增加 了 触摸 屏 的 成 本 、 减 弱 了 传递 
性 〈 即 降低 了 图 像 亮度 ) ， 该 保护 层 并 不 
受 欢 迎 。 减 少 EMI 效应 现在 往往 是 通过 
触摸 屏 控 制 器 中 的 硬件 实现 的 。 

表面 电容 使 用 一 个 贯穿 导电 涂 层 的 勾 
质 电 场 ， 这 是 通过 将 AC 信号 应 用 到 涂 层 
的 四 角 而 实现 的 。AC 信号 (通常 是 30 ~ 图 2.12 一 个 表面 电容 式 触 控 传 感 需 的 典型 结构 。 
100kHz 频率 范围 内 有 1 ~2V) 是 必需 的 ， 触 控 感应 器 由 一 层 均 质 透明 导电 看 膜 组 成 并 位 于 玻璃 薄 
因为 绝缘 硬 膜 阻止 了 DC 驱动 信号 与 用 户 层 的 上 方 。 导电 涂 层 被 线性 化 布置 的 电极 包围 ， 并 由 一 
的 手指 连接 。 所 有 四 个 角 都 由 完全 相同 的 PA T OEA 
电压 、 相 位 和 频率 驱动 。 当 用 户 的 手指 接触 顶部 人 重 膜 ， 一 小 部 分 电能 与 用 户 电容 耦合 ， 导 致 
一 小 部 分 的 电流 流 过 每 个 角落 连接 。 控 制 器 通过 比较 已 知 的 在 无 触 碰 状态 下 的 “基准 ” 电 
流 和 用 户 触摸 屏 后 的 电流 变化 来 识别 触 碰 。 触 点 的 位 置 通过 测量 供应 到 各 角 的 电流 来 定位 ， 
而 且 电流 的 大 小 与 触 磁 位 置 到 四 角 的 距离 远近 成 比例 (表面 电容 式 触摸 屏 的 等 效 电路 见 图 
2. 13 ) 。 电 子 控制 器 测量 这 些 电流 ， 将 其 转化 成 直流 ， 对 过 滤 噪 声 过 滤 ， 放 大 电流 ， 再 通过 
模拟 数字 转换 器 (ADC) 将 其 转换 成 数字 量 ， 计 算 触 点 位 置 ， 增 加 合适 的 信息 特征 并 向 主 
机 输出 触摸 位 置 坐标 [1 。 

表面 电容 的 优 缺 点 详 见 表 2. 5。 

表 2.5 表面 电容 式 触 控 技 术 的 优 缺 点 
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玻璃 基板 
选择 性 底部 屏蔽 

















































































































优点 缺 ”点 
在 超 滑 表面 的 优越 的 拖 搜 性 能 无 多 点 触 控 
比 模拟 电阻 的 耐用 性 好 得 多 MFG (或 触 控 笔 ) 
抗 污染 物 不 如 许多 其 他 玻璃 基板 触 控 耐用 
高 度 敏感 ( 超 轻 触 碰 ) 校准 度 渐变 ， 易 受 EMI 影响 
中 等 视觉 质量 (85% ~ 90% 光 传 输 ) 
不 能 在 移动 设备 中 使 用 
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图 2.13 表面 电容 式 触 摸 屏 的 等 效 电 路 。 夯 圈 的 “A” 代 表 了 电流 经 过 每 个 角落 连接 的 测量 。 来 源 : 
Mercuryl3 [CC -BY -SA -3.0 (http; //creativecommons. org/licenses/by — sa/3.0) |, Wikimedia Commons, 


表面 电容 是 一 项 单 触 点 技术 。 与 模拟 电阻 相似 的 表面 电容 “模拟 手势 ”功能 是 由 3M 
Touch Systems 的 竞争 对 手 在 2009 年 开发 的 ， 但 该 功能 效果 有 限 ， 因 为 表面 电容 几乎 绝 大 多 
数 使 用 在 商业 性 应 用 中 ， 对 多 点 触 控 的 需求 量 相 较 于 消费 性 应 用 要 少 得 多 。 但 是 在 不 远 的 将 
来 ， 某 些 商 业 应 用 的 多 点 触 控 需 求 可 能 会 改变 。 许 多 商业 程序 的 用 户 ( 如 公共 咨询 服务 台 
用 户 和 医疗 带 械 用 户 ) 可 能 都 会 有 投射 电容 式 触 摸 屏 的 智能 手机 和 /或 平板 电脑 ， 因 此 他 们 
会 自然 地 对 多 点 触 控 有 所 期 待 。 终 端 机 软件 和 医疗 器 械 的 开发 商 们 可 能 会 通过 优化 产品 的 多 
触 点 功能 来 满足 用 户 的 期 待 。 反 过 来 看 ， 这 也 将 把 表面 电容 技术 逐 出 市 场 ， 并 以 投射 电容 式 
技术 取代 之 。 

表面 电容 技术 相当 成 熟 ; 3M Touch Systems 已 经 对 其 不 断 改 良 ， 目 前 进一步 优化 的 空间 
较 小 。3M Touch Systems 自 2001 年 收购 MicroTouch Systems 以 来 一 直 保 持 着 主要 市 场 份额 。 
但 根据 DisplaySearch 的 报告 称 ，2013 年 表面 电容 的 全 部 市 场 价值 仅 为 约 4500 万 美元 ， 相 对 
于 2013 年 整个 触摸 屏 市 场 价值 的 310 亿美 元 而 言 !21 ， 它 并 不 是 一 个 重要 因子 。 

正确 噢 到 了 未 来 触 控 技术 的 发 展 方向 的 3M Touch Systems 已 经 将 其 注意 力 从 表面 电容 转 
向 了 投射 电容 ， 这 从 3M Touch Systems 在 2013 年 展销 会 中 表面 电容 的 几乎 全 部 缺席 可 以 看 
出 端倪 。 随 着 表面 电容 市 场 的 著 缩 ， 少 数 剩 下 的 亚洲 竞争 对 手 也 开始 退出 市 场 ， 这 将 加 快 该 
技术 的 消逝 速度 。 结 论 是 表面 电容 式 触 控 技术 正在 走向 其 使 用 寿命 的 终结 点 ; 5 ~7 年 内 ， 
该 技术 将 永久 地 成 为 一 项 历史 。 

2.4.2.1 反 向 斜 铺 场 电容 

标准 表面 电容 技术 无 法 在 移动 中 使 用 ， 因 为 它 要 求 一 个 非常 稳定 的 参考 地 来 建立 基准 电 
流 ， 从 而 获得 “无 触 磁 ” 环 境 的 信息 。CapPLUS™W 是 一 项 运用 了 “ 反 向 斜 铺 场 电 容 ” ( RRF- 
C™) 的 表面 电容 技术 ， 从 而 十 分 巧妙 地 解除 了 移动 使 用 的 限制 "1 。RRFC 技术 由 Touch 
Konnection Oasis (TouchKO) 公司 发 明 ， 该 公司 于 1996 年 在 得 克 萨 斯 州 创立 ，2007 年 被 
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Wacom 收购 。 











在 标准 表面 电容 中 ， 导 电 基 板 是 单一 的 静电 场 平 铺 。RRFC 使 用 的 则 是 四 个 斜 型 的 电 
场 ， 如 图 2.14 所 示 。 通 过 在 两 个 相 邻 角落 的 导体 基板 上 安置 一 个 AC 电压 ， 并 在 对 面 的 两 
角 安 置 一 个 DC 电压 ， 这 样 就 能 生成 一 个 经 过 传 感 融和 相应 静电 场 的 电压 斜坡 。 触 碰 控 制 器 
按 顺 序 对 所 有 的 四 角 组 合 重复 这 个 命令 ,测量 出 四 组 由 一 个 手指 触 碰 产生 的 电流 变化 (两 
次 和 方向 和 两 次 了 方向 ) 。 这 些 数据 的 概念 以 四 个 垂直 圆柱 体 的 概念 呈现 在 图 2. 14 中 。 在 
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边 、EMI、 皮 肤 干 燥 值 或 手指 大 小 、 



































量 中 捕捉 的 信号 数据 继续 经 由 额外 数字 信和 号 处 理 ， 以 过 滤 掉 诸如 接地 物体 变化 、 金 属 包 








注 手 套 等 外 部 因素 的 影响 。 这 使 得 触 磁 信号 独立 于 所 有 


外 部 环境 的 电容 效果 而 仅仅 来 自 手 指 触 碰 。 
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图 2.14 反 向 斜 铺 场 电容 (RRFC) 触 控 技术 使 用 了 四 个 斜 铺 场 〈 两 个 电压 坡 和 两 个 
静电 场 坡 ， 图 示 为 阴影 三 角形 )， 有 别 于 之 前 的 表面 电容 使 用 的 单一 平面 静电 场 。 来 源 ， 转 








载 获 得 Wacom 的 许可 















































© 这 一 技术 改良 的 结果 是 显著 解决 了 绝 大 多 数 表面 电容 遗留 的 问题 。 不 幸 的 是 ， 它 仍 
有 两 个 很 大 的 缺点 : RRFC 仍 是 一 项 单 点 触 控 技术 ; 除了 传统 信息 终端 机 以 外 的 许多 表面 电 

















容 应 用 都 明显 地 趋向 于 多 触 点 技术 。 

















© Wacom 是 RRFC 的 唯一 供应 商 ; 除非 有 一 个 压倒 性 的 市 场 驱 动力 (比如 ，Wacom 的 
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数码 笔 使 用 在 诸如 三 星 Galaxy Notes 这 样 的 平板 电脑 中 ) OEM/ODM 倾向 于 回避 独家 技术 
供应 商 。 


2.5 电阻 式 触 控 技 术 








2.5.1 模拟 电阻 式 触 控 技 术 (编号 3 ) 


模拟 电阻 式 触 摸 屏 通常 认为 是 由 Elographics 公司 于 1975 年 发 明 的 57] 。 (Elographics ZS 
司 成 立 于 1971 年 ， 于 1986 年 更 名 为 Elo Touch Systems， 于 2012 年 更 名 为 Elo Touch Solu- 
tions, ) 然而 ，Elographics 公司 原创 的 电阻 式 技术 仅 用 于 不 透明 的 笔 控 操作 仪 ， 而 不 是 透明 
的 触摸 屏 。 直 到 1977 年 Elographics 公司 才 着 手 研发 透明 的 版 本 (有 弯曲 度 以 适用 于 CRT 显 
示 器 的 表面 ) 。 该 应 用 直到 1982 年 的 诺 克 斯 维尔 世界 博览 会 上 才 作 为 商品 面市 ,1。 

透明 的 模拟 电阻 式 触摸 屏 由 西屋 公司 率先 发 明 。 该 项 发 明 拥 有 美国 专利 ， 专 利 号 为 
3522664， 专 利 申请 时 间 为 1967 年 ， 专 利 授予 时 间 为 1970 年 [2] 。 这 块 触摸 屏 由 一 块 玻璃 和 
一 块 聚 酯 薄膜 (透明 塑料 ) 组 成 ， 两 者 均 在 表面 覆盖 了 一 层 导电 玻璃 ， 并 被 间隔 开 。 这 是 
一 个 三 线 触 摸 屏 〈 现 已 过 时 ) 的 结构 ， 所 谓 “ 三 线 ” 是 指 : 

1) 玻璃 基底 的 相 邻 两 面 由 二 极 管 连接 。 

2) 玻璃 基底 的 另外 相 邻 两 面 ， 也 由 二 极 管 连接 。 

3) 表层 为 聚 酯 层 (更 多 细节 详 见 专利 记录 )。 

该 发 明 并 未 投入 市 场 。 最 早 商 业 化 的 模拟 电阻 式 触摸 屏 或 为 Sierracin/Intrex 公司 推出 的 
四 线 模拟 电阻 式 触摸 屏 ， 该 触摸 屏 于 1979 年 面市 ， 品 牌 名 称 为 “TransTech”[?]， 

模拟 电阻 式 触 摸 屏 仅 仅 是 用 于 定位 触摸 指令 的 机 械 开 关 。 典 型 模拟 电阻 式 触 摸 屏 的 结构 
如 图 2. 15 所 示 。 一 层 玻璃 基底 和 一 层 可 弯曲 的 薄膜 (通常 为 PET 材质 ) 均 有 一 面 被 导电 玻 
璃 ITO 覆盖 。 这 两 个 涂 层面 一 经 接触 ， 两 个 可 导电 表面 便 会 被 微小 (50 ~250pm) 、 透 明 的 
绝缘 点 隔 开 。 电 压 可 以 通过 两 层 材料 或 其 中 的 一 层 (取决 于 电阻 式 触 摸 屏 的 种 类 )。 当 手指 
点 击 可 弯曲 的 薄膜 层 ， 两 层 材料 的 导电 表面 便 可 形成 电流 。ITO 材质 产生 的 电阻 在 接触 点 形 
成 了 一 个 分 压 器 ， 通 过 电压 的 比值 便 可 得 出 触 碰 的 位 置 。 

2. 5. 1.1 模拟 电阻 式 触 控 技 术 的 变 体 

电阻 式 触 控 技术 有 以 下 三 种 主要 的 变化 形式 . 

1) 根据 “导线 ”的 数量 。 

2) 根据 层级 结构 。 

3) 根据 选项 。 

导线 的 数量 是 指 传感器 之 间 的 连接 数 。 有 三 种 常见 类 型 ， 分 别 是 四 线 、 五 线 和 八 线 。 

在 四 线 触摸 屏 中 ( 见 图 2. 16) ， 其 中 一 个 导电 层 左 右边 缘 的 母线 相连 接 ( 即 连接 X)， 
另 一 导电 层 的 上 下 边缘 的 导电 层 相 连接 ( 即 连接 Y) 。 控 制 器 产生 通过 X 连接 的 电压 ， 并 计 
算 其 中 一 个 Y 连接 上 的 电压 ， 从 而 得 出 触 点 的 X 坐 标 。 反 之 ， 控 制 器 产生 通过 了 连接 的 电 






















































































tH: 人 工 智能 下 的 人 机 交互 技术 


ix 
将 
cat 
K 









玻璃 或 有 机 玻璃 基 








图 2.15 模拟 电阻 式 触摸 屏 是 一 个 用 于 定位 触摸 指令 的 机 械 开 关 。 两 个 导电 层 被 微 
小 的 绝缘 点 隔 开 ; 当 两 个 涂 层 被 触 压 在 一 起 时 ， 就 形成 了 电 接 触 。 通 过 导电 层 上 的 电压 比 
就 能 计算 出 触 点 的 位 置 。 改 编 自 Elo Touch Solutions 


压 ， 并 计算 其 中 一 个 X 连接 上 的 电压 ， 从 而 得 出 触 点 的 Y 坐标 [2]。 
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测量 表层 电压 





| Y 轴 测量 


图 2.16 在 四 线 触摸 屏 中 ， 电 压 梯度 作用 于 玻璃 层 的 X 轴 的 两 个 母线 ， 
ena 反之 ,电压 梯度 作用 于 上 层 Y 轴 的 两 个 母线 
结果 电压 则 在 下 面 的 玻璃 层 上 测算 得 出 















































在 五 线 触摸 屏 中 ( 见 图 2.17), X 电压 和 YY 电压 作用 于 下 面 的 导电 层 的 四 个 角 ， 上 面 的 
导电 层 的 作用 仅仅 是 接触 点 〈 接 触 刷 ) 。 控 制 器 形成 电压 作用 于 X 轴 右 边 的 两 个 角 ， 并 使 X 
轴 左 边 的 两 个 角 接 地 。 上 面 的 一 层 (第 五 根 线 ) 的 作用 相当 于 用 来 计算 X 位 置 的 电压 探 针 。 
同 理 ， 控 制 器 反 向 进行 该 过 程 ， 把 形成 的 电流 作用 于 站 轴 上 面 两 个 接触 点 并 使 了 轴 下 面 两 
个 连接 接地 ， 上 层 便 可 作为 电压 探测 需 来 测量 Y 坐标 。 五 线 触摸 屏 时 刻 为 触 碰 做 好 准备 ， 
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在 触 碰 产 生前 ， 四 个 角 被 相同 的 电压 作用 ， 与 此 同时 上 层 被 高 电阻 接地 。 没 有 触 磁 时 ， 上 层 
的 电压 为 零 。 当 屏幕 被 触 碰 时 ， 如 前 所 述 ， 控 制 器 检测 到 电流 增加 并 通过 上 层 ， 就 开始 了 计 
算 位 置 的 过 程 [3]。 

四 线 触摸 屏 和 五 线 触 摸 屏 最 主要 的 不 同 在 于 使 用 寿命 。 四 线 将 1 个 手指 的 点 击 换算 为 
100 万 次 触 击 (或 者 将 手写 笔 的 一 次 点 击 换算 为 10 万 个 字符 ) ， 而 五 线 触 摸 屏 则 将 其 换算 为 
3000 万 次 触 碰 。 出 现 这 样 的 区 别 原因 在 于 上 面 导电 层 的 不 同 作用 ， 当 它 仅 仅 作 为 接触 点 而 
不 是 电阻 分 压 带 的 时 候 ， 就 能 在 导电 涂 层 进一步 退化 之 前 停止 运转 。 



























































X 轴 测量 o 等 效 电路 
电压 梯度 © NNN 
作用 于 玻 ”电压 梯度 
璃 层 的 Xx ”作用 于 玻 

sare 




















触 点 作 E | 表层 接触 点 作 
为 电压 探测 I | 为 电压 探测 
sox( D) a 
Y 轴 测量 





图 2.17 在 五 线 触 摸 屏 中 ， 电 压 梯度 作用 于 玻璃 层 的 X 轴 ， 而 上 层 
( 即 第 五 根 线 ) 的 作用 相当 于 电压 探测 器 。 当 电压 作用 于 玻璃 层 的 Y 轴 
上 ， 上 层 的 作用 仍然 一 样 

















八 线 触摸 屏 就 是 在 四 线 触 摸 屏 的 基础 上 多 加 一 根 导 线 ， 这 根 导 线 将 每 一 个 母线 相连 ， 这 
样 就 能 直接 测算 传感器 上 的 电压 。 这 项 技术 的 核心 优势 通常 称 为 “四 端 测 压 ”， 也 就 是 通过 
分 离 电 压 和 电流 ， 从 控制 需 向 传感器 传导 电流 的 四 根 导 线 的 阻抗 作用 得 以 消除 ， 这 样 就 减少 
了 屏幕 校准 误差 。 

过 去 ， 也 出 现 过 所 谓 的 “六 线 ” 和 “七 线 ” 电 阻 触摸 屏 。 一 般 来 说 ,它们 都 是 触摸 屏 
制造 商 试图 回避 Elo Touch Solutions 公司 对 五 线 触摸 屏 的 专利 权 的 产物 。 六 线 就 是 在 玻璃 底 
层 的 背面 多 加 一 个 接地 层 ， 然 后 这 并 没有 什么 实质 作用 。 七 线 就 是 多 加 两 根 导 线 ， 用 于 减少 
因 环 境 变化 产生 的 误差 ,但 是 效果 不 佳 。 这 些 不 同 产品 本 质 上 与 五 线 触 摸 屏 无 区 别 。 

电阻 式 触 摸 屏 有 七 种 不 同 的 层级 材料 组 合 ， 包 括 : 

1) 聚 酯 薄膜 / 聚 酯 薄膜 。 

2) 聚 酯 薄膜 /玻璃 。 

3) 聚 酯 薄膜 /塑料 。 

A) 聚 酯 薄膜 / 聚 酯 薄膜 /塑料 。 
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5) 聚 酯 薄膜 / 聚 酯 薄膜 /玻璃 。 

6) 玻璃 / 聚 酯 薄膜 /玻璃 。 

7) 玻璃 /玻璃 。 

以 上 组 合 中 的 第 一 个 材料 用 于 顶层 〈 即 有 五 种 材料 组 合 是 用 聚 酯 薄膜 做 顶层 ) ， 最 后 一 
个 材料 运用 于 底层 。 前 面 两 种 材料 组 合 占据 了 80% 的 元 件 市 场 份额 ， 大 多 数 的 材料 供应 商 
都 在 中 国 !2] 。 第 一 种 材料 组 合 在 通信 设备 中 应 用 最 广 (特别 是 手机 )， 而 第 二 种 是 通信 和 
商业 领域 都 适用 。 第 三 种 主要 用 于 不 能 出 现 玻璃 破损 情况 的 产品 (例如 儿童 玩具 )。 第 四 
种 ,触摸 屏 是 聚 酯 薄膜 构成 ， 下 面 的 基底 是 坚硬 塑料 材质 ， 以 增强 耐用 度 。 第 五 种 与 第 四 种 
基本 相同 ， 除 了 为 增加 硬度 ， 以 刚性 平板 玻璃 作为 基底 (通常 用 于 数字 电阻 ); 第 六 种 被 誉 
为 “装甲 ”， 因 为 它 解决 了 上 层 聚 酯 薄膜 材质 的 耐用 性 不 足 问 题 。 第 七 种 因 其 稳定 性 主要 应 
用 于 汽车 领域 。 

相 比 其 他 的 触 控 技术 ， 电 阻 式 触 摸 屏 提 供 的 选择 非常 多 。 常 见 的 选项 如 下 ( 详 见 本 书 
2.13 节 ) : 





















































。 坚硬 涂 层 一 一 可 提高 耐用 性 。 
© 抗 反射 涂 层 一 一 可 减少 反射 扩散 。 
© 反 胶 光 涂 层 一 一 变 镜面 反射 为 扩散 反射 。 








。 防 指 印 涂 层 一 一 可 防止 指 印 带 来 的 油脂 附着 在 表面 。 

e 防 污染 (或 “防腐 蚀 ”) 涂 层 一 一 可 防止 类 似 永久 标记 墨水 一 类 的 墨水 附着 。 

。 抗菌 涂 层 一 一 可 减少 附着 在 医疗 设备 上 的 细菌 。 

。 加 固 基 底 一 一 可 提高 耐用 性 。 

。 装甲 表面 一 一 将 聚 酯 薄膜 /玻璃 材料 组 合 中 的 顶层 锻压 为 微型 玻璃 ， 以 提高 耐用 性 。 

。 高 透射 率 / 低 反射 率 一 一 提高 户外 使 用 的 可 视 性 。 

2.5.1.2 ”模拟 电阻 式 触 摸 屏 的 特性 

模拟 电阻 是 单 点 触 控 技术 ， 也 就 是 说 ， 它 不 支持 真正 的 多 点 触 控 。 正 如 本 章 介 绍 投 射电 
容 部 分 提 到 的 一 样 ， 随 着 数 以 十 亿 计 的 智能 手机 和 平板 电脑 在 市 场 上 的 推出 ， 消 费 者 对 支持 
多 触 点 触摸 屏 的 需求 也 在 不 断 提高 。2008 年 ， 电 阻 控制 器 (也 有 时 被 称 为 “模拟 手势 ”) 
的 进一步 改进 ， 成 为 解决 多 触 点 技术 空缺 问题 的 营销 变通 方案 。 今 天 ， 许 多 标准 的 电阻 控制 
器 都 能 实现 模拟 手势 的 功能 [25] 。 

实现 模拟 手势 有 几 种 方法 ， 其 中 一 种 是 测算 在 操作 期 间 被 传感器 消耗 的 电流 。 当 受到 单 
点 触 控 时 ， 电 流通 常 是 恒定 的 ， 因 此 不 受 监控 。 但 当 有 两 个 接触 点 出 现时 ， 两 个 导电 层 成 为 
并 联 电阻 ， 这 就 增加 了 电流 消耗 。 这 使 得 模拟 电阻 能 够 支持 一 些 简 单 的 两 指 操作 ， 例 如 放大 
缩小 和 旋转 ， 但 它 无 法 通过 标准 的 多 点 触 控 测试 ， 比 如 Microsoft Windows Touch Logo, 

模拟 手势 功能 在 触摸 屏 的 营销 方面 尤为 重要 ， 因 为 它 让 低 端 的 模拟 触摸 屏 至 少 可 以 在 某 
一 方面 与 投射 电容 式 触 摸 屏 媲 美 。 事 实 上 ， 电 阻 式 的 模拟 手势 带 来 的 用 户 体验 非常 不 同 ， 这 
不 仅 因 为 其 手势 功能 有 限 ， 也 因为 大 部 分 电阻 式 触 摸 屏 比 投 射电 容 式 触 摸 屏 需 要 更 用 力 的 触 
击 ， 这 样 在 同时 移动 两 指 进行 操作 时 ， 持 续 用 力 按压 非常 吃力 。 
















































































模拟 电阻 式 触 控 技 术 的 优势 和 劣势 见 表 2. 6。 

表 2.6 中 的 前 面 四 项 劣势 与 投射 电容 式 实际 产生 的 新 标准 直接 冲突 。 这 些 劣 势 导 致 模拟 
电阻 式 触 摸 屏 在 消费 电子 应 用 领域 很 快 被 投射 电容 式 触 摸 屏 抢夺 了 市 场 份额 。 根 据 Display- 
Search 报告 ， 模 拟 电阻 式 触摸 屏 2012 年 仅 占据 消费 类 单位 出 货 量 的 16% ， 这 当中 的 73% 是 
用 于 手机 。 

而 在 商业 应 用 领域 的 情况 却 大 不 相同 。 根 据 DisplaySearch 报告 ， 模 拟 电阻 式 触 摸 屏 占据 
了 88% 的 单位 出 货 量 。 其 主要 的 商业 应 用 领域 包括 汽车 、 工 业 设 备 、 零 售 /销售 终端 
(POS) 、 信 息 点 终端 (POI) 、 自 助 服务 设备 ， 以 及 复印 机 、 打 印 机 之 类 的 办 公设 备 。 电 阻 
式 技术 在 商业 应 用 领域 不 断 强 势 的 原因 如 下 : 

© 电阻 式 技术 作为 标准 的 触 控 技术 已 经 超过 30 年 ， 它 的 短 板 已 经 为 许多 应 用 领域 所 
接受 。 

。 虽然 某 些 方面 对 多 点 触 控 的 需求 正在 增长 ， 但 商业 应 用 领域 对 于 多 点 触 控 的 要 求 








表 2.6 模拟 电阻 式 触 控 技 术 的 优 缺 点 









































优点 缺点 
可 用 手指 、 手 写 笔 及 一 切 非 尖锐 物 操控 ( 触 控 物 无 限 
制 ) 无 法 实现 多 点 触 控 ( 仅 有 模拟 手势 ) 
最 低 价 的 触 控 技术 : 每 对 角 线 英寸 只 要 1 美元 甚至 更 低 | 光学 质量 差 (20% 的 显示 层 发 出 的 光线 会 因为 层级 反射 而 
广泛 的 供应 渠道 ， 有 100 家 供应 商 (一 个 商品 ) ERK) 
可 以 按照 IP65 或 者 NEMA -4 的 标准 密封 耐用 性 差 ( 聚 酯 薄膜 表层 容易 损坏 ) 
防 屏幕 污染 相对 需要 以 更 大 力度 触 控 
耗 电量 低 

















。 商业 应 用 领域 中 ， 绝 大 多 数 的 触 控 都 是 点 击 的 形式 ， 不 会 用 到 滑动 手势 ， 因 此 对 于 
触 控 力度 没有 严格 要 求 。 

e 为 了 满足 商业 应 用 领域 对 齐 平 包 边 触摸 屏 的 快速 增长 需求 ， 大 部 分 电阻 式 触摸 屏 供 
应 商 将 五 线 触摸 屏 改进 为 齐 平 包 边 外 观 [251 。 

。 现在 对 于 手写 笔 的 需求 也 相当 大 ， 而 电阻 式 触 控 技 术 致 力 于 各 种 无 电源 手写 笔 的 





使 用 。 
© 豆 果 手机 出 现 以 后 消费 电子 应 用 领域 发 生 了 天 翻 地 覆 的 变化 ， 而 商业 领域 尚未 出 现 
这 种 飞跃 性 的 变革 。 





电阻 式 触 控 技 术 只 能 应 用 于 消费 电子 产品 领域 和 商业 电子 产品 领域 。 它 在 消费 电子 产品 
领域 的 主要 优势 在 于 低 价 和 手写 笔 操 控 功 能 。 然 而 ， 投 射电 容 式 技术 将 在 五 年 内 吸收 这 些 优 
势 ， 以 至 于 将 电阻 式 技术 在 消费 电子 产品 领域 的 市 场 份 额 压 缩 至 个 位 数 。 

在 商业 电子 产品 领域 ,电阻 式 技术 将 被 投 财 电容 式 技术 抢占 大 部 分 市 场 份额 ， 至 于 早晚 
则 取决 于 以 下 儿 个 因素 : 

1) 投射 电容 式 触摸 屏 降价 的 速度 。 
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2) 更 多 投射 电容 式 触 摸 屏 供应 商 加 入 适应 商业 应 用 领域 更 多 专业 需求 行列 的 速度 。 

3) 每 个 应 用 领域 对 投射 电容 式 触 摸 屏 的 关键 性 能 的 需求 增长 速度 。 例 如 ， 在 消费 品 领 
域 ， 对 齐 平 包 边 触摸 屏 的 需求 增长 更 快 ， 比 如 在 保健 用 品 和 信息 终端 方面 的 需求 就 比 销售 终 
端 、 工 业 设备 应 用 方面 大 。 同 理 ， 休 闲 对 于 多 点 触 控 技 术 的 要 求 相 比 销售 终端 增长 更 快 ， 难 
以 想象 一 家 快餐 店 的 点 菜 终端 需要 用 到 多 点 触 控 。 

DisplaySearch 预计 ， 在 商业 应 用 领域 , 电阻 式 触 摸 屏 的 单位 出 货 量 份 额 只 会 略微 下 跌 ， 
从 2012 年 的 88% 下 降 到 2017 年 的 72% |! 。 


2.5.2 数字 多 点 电阻 式 触 控 技术 (编号 4) 


有 一 种 类 型 的 电阻 式 触摸 屏 被 称 为 “和 矩阵 电阻 ” 。 这 种 矩阵 电阻 式 触摸 屏 中 ， 导 电 玻璃 
层 被 划分 为 网 格 状 的 行 和 列 。 它 其 实 是 第 一 种 电阻 式 触 摸 屏 技术 开发 的 。Sierracin/Intrex 公 
司 在 1973 年 率先 销售 ITO 涂 层 的 聚 酯 薄膜 。 根 据 当 时 在 该 公司 工作 的 雇员 说 ，Sierracin/Im- 
trex 公司 发 明了 一 种 矩阵 电阻 井 字 游 戏 用 以 演示 他 们 聚 酯 薄膜 的 产品 !”] 。 这 使 得 他 们 的 客 
户 迅 速 开 发 了 一 系列 兼容 和 矩阵 电阻 式 触 摸 屏 的 产品 。 当 然 ， 行 列 交 叉 的 矩阵 电阻 式 技 术 在 当 
时 并 不 是 独创 的 ， 它 更 早 地 被 应 用 于 膜 片 开关 面板 的 不 透明 (金属 ) 导体 上 。 

在 数字 电阻 式 触 摸 屏 中 ， 两 层 (基板 


















































数字 开关 GAD 

















和 盖 板 ) 上 的 ITO 涂 层 都 被 划分 成 横 平 竖 1.5mm 


— 


直 的 条 块 ， 相 互 之 间 形 成 特定 的 角度 ， 如 
图 2. 18 所 示 。 当 触摸 屏 被 按压 时 ，ITO 涂 
层 上 的 一 个 或 多 个 十 字 交 又 点 形成 电 触 点 ， 
而 每 一 个 十 字 交 叉 点 都 形成 一 个 独立 的 开 
关 。 条 块 的 间距 取决 于 所 需 的 切换 矩阵 布 
局 。 这 当中 没有 对 称 性 的 要 求 ， 因 此 和 矩阵 
的 行 数 和 列 数 都 是 任意 的 (例如 4 行 12 
列 ) 。 大 多 数 数 字 电阻 式 触 摸 屏 是 根据 客户 
需求 定制 的 ， 而 且 不 需要 控制 器 ” 。 图 2. 18 数字 电阻 式 触摸屏 由 加 了 ITO 涂 层 的 两 

20 世纪 70 年代， 数字 电阻 式 触摸 屏 被 层 (基板 和 盖 板 ) 构成 ， 涂 层 被 划分 成 横 平 竖 直 的 条 
广泛 地 用 于 商业 性 产品 中 ， 如 工厂 自动 化 、 块 ， 相互 之 间 形 成 特定 的 角度 。 当 触 摸 屏 被 按压 时 ， 













































































当 四 线 和 五 线 模拟 电阻 式 触 屏 开始 在 80 年 感 器 (LEX) 
代 普 及 时 ， 数 字 电 阻 式 触 摸 屏 日 渐 式 微 ， 
这 是 因为 它 较 低 的 分 辨 率 以 及 无 法 处 理 写 字 和 画图 。 

在 JazzMutant 创立 的 2002 年 以 前 ， 数 字 电 阻 还 是 一 项 单 点 触 控 技 术 。 这 个 法 国 音 乐 播 
放 器 生产 企业 在 2005 年 推出 其 Lemur 产品 之 后 ， 这 一 情况 发 生 了 改变 。 虽 然 多 点 触 控 自 
1982 年 以 来 就 已 经 开始 研究 5] ， 但 Lemur 音乐 控制 器 实际 上 是 第 一 个 开始 应 用 多 点 触 控 界 
面 的 产品 :31。2007 年 ， 当 JazzMutant 决定 单独 营销 他 们 的 多 点 触 控 技 术 时 (同年 第 一 台 



































iPhone 手机 发 布 ) ， 他 们 将 公司 重新 命名 为 Stantum。 

Stantum 的 技术 是 数字 多 点 电阻 (DMR) ， 冠 名 “ 插 和 人 电压 传 感 矩阵 ”(iVSM) 。 除 了 增 
加 了 一 个 复杂 的 多 点 触 控 控制 器 ， 该 技术 使 用 的 透明 转换 矩阵 概念 与 30 年 前 引入 市 场 的 技 
术 基 本 相同 。 核 心 区 别 如 下 : 

© ITO 的 各 平行 和 各 垂直 线 之 间 仅 距离 1. Smm， 比 之 前 使 用 的 要 窗 得 多 。 这 虽然 使 控 
制 器 获得 更 高 的 分 辩 率 ， 但 是 也 极 大 增加 了 控制 器 的 连接 数 (如 一 个 10in 的 屏幕 需要 400 
个 连接 线 ) 。 

。 触摸 激活 作用 力 相 对 较 轻 ， 仅 为 8 ~15g。 

© 文 持 多 达 10 个 多 点 同时 触 控 的 控制 器 最 佳 使 用 于 手指 触 控 和 触 控 笔 触 控 。 这 意味 着 
它 具 有 “ 防 手掌 误 磁 ”的 功能 (忽略 除了 笔尖 之 外 的 任何 触 磁 )， 这 对 有 效 的 使 用 触 控 笔 十 
分 关键 。 

由 于 他 们 是 一 家 很 小 的 法 国 初 创 企 业 ，Stantum 决定 启用 一 个 许可 经 营 的 商业 模式 ， 而 
不 是 成 为 触摸 屏 硬件 的 供应 商 。Stantum 开始 将 它们 的 控制 器 授权 给 两 家 ASIC 制造 商 (ST 
Microelectronics 和 Sitronix) ， 并 与 美国 的 一 家 专营 商业 应 用 的 触摸 屏 制 造 商 Gunze 合作 。 
2009 ~ 2011 年 间 ，Stantum 在 商业 和 军事 应 用 方面 的 表现 一 般 ， 因 为 手指 和 触 控 笔 的 结合 在 
当时 更 受 青睐 。2012 年 Stantum 与 Nissha Printing 合作 开发 了 一 款 iVSM 产品 ， 称 为 “精准 触 
控 Z”。 它 在 两 层 基板 间 加 入 了 一 层 Peratech 公司 的 透明 压 感 材料 ， 极 大 地 增强 了 触 屏 的 压 
RAEO], BZA Stantum 较 前 些 年 略 显 低调 ， 但 它 一 直 与 合作 伙伴 致力 于 设计 商用 产品 ， 
如 K -12 教育 平板 电脑 。 尽 管 它 不 是 唯一 一 家 数字 多 和 触 点 电阻 式 技 术 供 应 商 ， 但 其 名 气 在 
该 领域 业界 毫 无 疑问 是 最 大 的 。 

数字 多 点 电阻 式 触 控 技 术 的 优 劣 势 见 表 2.7 

表 2.7 数字 多 点 电阻 式 触 控 技 术 的 优 缺 点 


































































































优点 缺点 
真正 的 多 点 触 控 光学 质量 差 (20% 的 显示 层 发 出 的 光线 会 因为 层级 反射 而 
可 用 手指 、 手 写 笔 和 其 他 非 尖锐 物体 操控 ER) 
比 投射 电容 式 触摸 屏 价格 更 低 耐用 性 差 〈 育 酯 薄膜 表层 容易 损坏 ) 
简单 而 成 熟 的 电阻 式 技术 所 需 触 控 力 度 小 但 仍 大 于 投射 电容 式 触摸 屏 
可 以 按照 IP65 或 者 NEMA -4 的 标准 密封 需要 大 量 传感器 连接 
防 屏幕 污染 供应 商 数量 有 限 
耗 电量 低 传感器 通常 需要 定制 














2.5.3 模拟 多 点 电阻 式 触 控 技术 (编号 5) 


当 2007 年 苹果 手机 引发 了 全 球 消 费 者 对 于 多 点 触 控 技 术 的 无 尽 需 求 时 ， 横 拟 电阻 式 触 
摸 屏 行 业 发 明了 交融 数字 电阻 式 和 模拟 电阻 式 的 触 控 技术 ， 称 为 “模拟 多 点 电阻 ” ， 作 为 投 
射电 容 式 的 低 成 本 替代 品 。2008 年 ， 中 国 台 湾 的 JTouch 公司 是 首 家 将 这 种 技术 商业 化 的 触 
摸 屏 供 应 商 。 但 一 些 触摸 屏 供 应 商 将 自己 推出 的 版 本 以 品牌 命名 。 例 如 Touch International 
称 其 为 “多 点 触 控 模拟 电阻 式 传感器 ” ( MARS)。 有 些 供 应 商 只 是 宣传 “矩阵 电阻 式 触摸 
屏 ”， 这 种 触摸 屏 需要 通过 检查 数据 表 来 判断 是 模拟 电阻 式 技术 还 是 数字 电阻 式 技术 。 判 断 
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方法 之 一 是 看 传 感 天 边缘 的 连接 。 如 果 在 四 边 都 有 许多 连接 ， 就 是 模拟 电阻 式 技术 。 如 果 只 
有 了 两边 上 有 连接 ， 就 是 数字 电阻 式 技术 。 











如 图 2. 19 所 示 ， 在 这 种 技术 中 ， 每 个 导体 表面 都 呈 横 纵 交 又 的 条 块 状 ， 这样 条 与 条 之 





间 的 重合 交叉 处 就 形成 了 一 个 个 方形 ， 每 个 方形 相当 于 一 个 迷你 的 四 线 触摸 屏 。 也 就 是 说 ， 
在 任意 方形 中 ， 判 定 触 击 位 置 的 方法 与 单 点 触 控 电 阻 式 触 摸 屏 一 样 ， 都 是 通过 模拟 电阻 分 压 


ait ids 























。 然 而 ， 当 两 个 触 击 在 同一 个 方形 中 的 时 候 ， 这 两 个 触 击 动作 就 被 均 分 ， 被 当 作 一 个 单 


独 触 击 处 理 ， 正 如 在 一 个 四 线 触摸 屏 上 操作 一 样 。 





BRT ITO 层 的 布局 ， 模 拟 多 点 电阻 式 “4 线 模拟 触摸屏 ” 
触摸 屏 在 物理 结构 上 与 四 线 模拟 电阻 式 触 





摸 屏 极 为 相似 。 模 拟 多 点 电阻 式 触摸 屏 通 | 10~20mm 
常 只 采用 聚 酯 薄膜 - 玻璃 结构 ， 虽 然 有 时 RS 


玻璃 


模拟 多 点 电阻 式 触 摸 屏 的 控制 器 有 着 如 
Texas Instruments 公司 这 样 的 标准 货源 [311 。 
一 些 触摸 屏 生 产 商 也 自己 生产 模拟 多 点 电 
阻 式 控 制 器 ， 例 如 AMT (Apex Material 
Technology ) 公司 [321 s 

模拟 多 点 电阻 式 设计 的 初衷 是 为 运行 
Windows 7 系统 的 消费 类 一 体 化 台式 机 以 低 
成 本 解决 多 点 触 控 需求 。 为 了 减少 22in 一 


体式 
降低 


20mm。 问 题 是 ， 这 意味 着 当 用 户 将 两 个 手 


指 紧 挨 在 一 起 并 在 屏幕 上 进行 拖 搜 的 时 候 ， 


随 着 


- 聚 酯 薄膜 - 玻璃 结构 的 耐用 性 更 高 。 
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的 导电 层 被 划分 为 条 状 ， 这 样 条 与 条 之 间 的 交叉 部 分 
就 形成 一 个 个 方形 ， 这 些 方形 一 般 边 长 为 10 ~20mm。 





成 本 ) ， 每 个 方形 的 宽度 一 般 在 10 ~ 











每 个 方形 如 同一 个 独立 的 四 线 模拟 触摸 屏 

















中 摸 位 置 的 不 同 ， 触 摸 屏 输出 会 在 一 个 或 两 个 触 击 命令 间 随 机 切换 。 通 常 在 这 种 情况 


下 ， 消 费 者 会 认定 触摸 屏 有 缺陷 迹象 。 除 了 会 产生 有 严重 缺陷 的 用 户 体验 之 外 ， 模 拟 多 点 电 

















阻 式 


由 摸 屏 在 消费 电子 产品 市 场 上 还 有 如 下 问题 : 

。 与 投 映 电容 式 触摸 屏 相 比 它 没有 明显 的 价格 优势 。 

。 它 很 难 做 到 尺寸 适宜 ， 尤 其 是 在 大 尺寸 的 情况 下 。 

© 它 也 有 电阻 式 触摸 屏 的 基本 限制 通病 (相对 高 的 触 控 力量 、 低 光学 性 能 和 低 耐 用 度 ) 。 


























在 推 向 市 场 几 个 月 之 后 ， 一 家 主要 的 原矿 委托 制作 企业 就 召回 了 他 们 基于 模拟 多 点 电阻 





式 技术 的 一 体 机 。 实 际 上 ， 其 他 基于 模拟 多 点 电阻 式 技术 的 一 体 机 在 一 两 年 后 也 未 在 真正 意 
义 上 被 消费 电子 产品 市 场所 接受 。 这 让 电阻 式 触 摸 屏 产业 得 到 了 教训 。 到 了 2013 年 还 未 被 
市 场 淘汰 的 模拟 多 点 电阻 式 触摸 屏 是 在 以 下 几 个 方面 做 了 改进 : 





1) 尺寸 缩小 。 


2) 方形 足够 小 ， 小 到 两 个 手指 不 能 触 控 同一 个 方形 。 


3) 专门 针对 商业 和 军事 应 用 领域 。 
总 的 来 说 ， 模 拟 多 点 电阻 式 研发 的 初衷 是 ， 在 消费 电子 产品 领域 ， 在 多 点 触 控 性 能 方面 
以 低 价 抗衡 投射 电容 式 技 术 。 但 它 已 经 败 下 阵 来 ， 成 为 了 一 项 无 足 轻重 的 小 众 技术 。 
模拟 多 点 电阻 式 搁 术 的 优 劣 势 见 表 2. 8。 
表 2.8 模拟 多 点 电阻 式 触 控 技 术 的 优 缺 点 







































































优点 缺点 
多 点 触 控 ， 但 相同 方形 内 无 法 实现 两 点 视觉 质量 差 (20% 的 显示 光 由 于 反射 层 丢 失 ) 
手指 、 触 针 或 任何 其 他 非 尖 锐 物 品 操控 〈 任何 物 体 碰 触 ) 奎 用 性 差 〈 易 损耗 聚 酯 薄膜 表面 ) 
简单 成 熟 的 电阻 式 技术 触 力 小 ， 但 仍 高 于 投射 电容 式 触摸 屏 
可 按照 IPOS 或 NEMA -4 环境 标准 密封 大 量 传感器 相连 ( 连接 距离 小 到 能 足够 感应 两 个 手指 并 在 一 起 ) 
防 屏幕 污染 供应 商 数量 有 限 
耗 电 量 低 











2.6 声波 触 控 技 术 





2.6.1 表面 声波 触 控 技术 (编号 6) 


目前 周知 的 表面 声波 (SAW) 是 由 著名 发 明 家 Robert Adler 博士 于 1985 年 在 Zenith 发 
HRID], (Adler 博士 以 共 创 1956 年 首 度 问世 的 超声 波 电视 机 遥控 器 而 闻名 [54 。) Zenith 在 
1987 年 向 当时 美国 Raychem 所 有 的 Elo Touch Solutions (当时 名 为 Elographics) 出 售 表面 声 
波 触摸 屏 技术 。Robert Adler 在 售后 继续 为 Elo 提供 咨询 服务 ， 为 表面 声波 技术 在 20 世纪 90 
年 代 的 商业 化 进程 做 出 了 积极 的 贡献 。 

如 图 2. 20 所 示 ， 表 面 声波 传感器 相对 简易 ， 由 一 个 普通 钠 钙 基 板 、4 个 压 电 换 能 器 和 4 
个 波导 部 分 反射 器 组 成 ， 该 反射 器 由 低温 玻璃 熔 块 制 成 并 丝 网 印刷 在 表面 上 以 火烧 制 。 压 电 
换 能 器 成 对 安装 ,一 个 给 X 轴 , 一 个 给 Y 轴 。X 和 了 轴 的 发 射 换 能 需 发 送 穿 过 基板 表层 的 
超声 瑞 利 波 (Raleigh waves) , ， 有 瞄准 X 轴 和 YY 轴 的 发 射 反射 句 。 

在 4~10MHz 范围 内 的 频率 是 可 行 的 ， 但 是 出 于 历史 原因 ， 目 前 大 多 数 的 表面 声波 触摸 屏 
在 5.53MHz 运行 工作 。 发 射 换 能 器 由 一 组 呈 45° 角 的 隆起 物 组 成 ， 随 着 瑞 利 波 击 中 这 些 隆起 物 
后 兰 线 ， 它 们 部 分 会 被 反射 到 屏幕 上 。 相 邻 隆起 物 脊 线 的 距离 空间 是 基板 上 的 扩散 波 波长 的 整 
数 倍 。 这 在 波 列 穿行 时 能 够 防止 隆起 物 对 其 产生 的 巨大 干扰 ， 波 列 在 经 过 每 个 隆起 物 时 会 部 分 
折射 。 在 屏幕 相对 边缘 处 的 一 组 匹配 的 接收 反射 器 将 波导 向 X 轴 和 了 轴 接 收 换 能 需 。 

任何 特定 的 瑞 利 波 从 发 射 换 能 器 到 接收 换 能 器 的 传输 时 间 取 决 于 路 径 的 长 短 ; 反射 器 首 
反射 的 平行 波 耗 时 比 起 反射 器 尾 反 射 的 时 间 要 短 。 这 种 运用 “飞行 时 间 ” 的 方法 在 中 介 介 
质 呈 非 色散 时 是 可 行 的， 也 就 是 当 波 速 在 测试 的 频率 范围 内 没有 重大 波动 的 时 候 。 这 样 ， 碰 
触 屏幕 的 物理 位 置 就 能 折射 到 时 间 区 域 。 当 和 手指 或 其 他 柔软 (吸音) 物体 碰 触 基板 时 ， 基 
板 能 吸收 一 部 分 特定 的 X 轴 和 YY 轴 的 瑞 利 波 。 
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Y 轴 发 射 器 X 轴 接收 器 
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X 轴 瑞 利 波 





活动 区 志 





吸收 胶带 X 轴 发 射 器 


图 2.20 表面 声波 触 控 传 感 器 由 一 个 玻璃 基板 、 两 个 发 射 换 能 器 和 四 个 45" 角 的 反射 
器 组 。 瑞 利 波 从 一 个 发 射 换 能 器 下 行 至 一 个 反射 器 ， 穿 过 屏幕 ， 上 行经 过 相对 的 反射 器 ， 
SRG AGA REGRET. Mim A Elo Touch Solution 
如 图 2. 21 所 示 ， 触 控 位 置 是 由 测量 波幅 在 X、YY 轴 的 时 间 区 域内 的 减少 决定 的 。 测 量 
波幅 的 减少 能 够 得 出 Z 轴 的 触 控 力 ， 尽 管 在 实践 中 很 少 这 样 做 。 








振幅 
传输 脉冲 





zpk SSeS 
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图 2.21 ”在 表面 声波 触摸 屏 中 ， 瑞 利 波 在 X 或 Y 轴 的 传输 脉冲 信号 在 时 间 区 域 生成 了 一 个 振幅 特性 
曲线 ; 在 轴线 上 的 触 控 位 置 是 由 振幅 下 降 的 时 间 区 域 位 置 决 定 的 。 来 源 ， 改编 自 Elo Touch Solutions 
表面 声波 控制 器 本 身 具有 自 适 性 。 为 了 忽略 触 控 表 面 的 大 多 数 污染 物质 ， 它 们 持续 监控 
在 无 触 点 条 件 下 接收 的 波形 ， 在 环境 发 生 改 变 时 自行 调整 ， 并 在 必要 时 更 改 噪声 阔 值 。 
表面 声波 触摸 屏 有 6 ~ 52in。 但 由 于 瑞 利 波 在 钠 钙 基 板 中 的 相对 高 衰减 性 〈 吸 入 性 ) ， 
大 于 24in 的 屏幕 要 特别 使 用 低 衰 减 性 的 硼 硅 基 板 或 钢 基 板 (此 基板 能 增加 30dB 到 42in 表 
面 声波 触摸 屏 的 信 噪 比 中 !5] ) 。 但 是 ， 随 着 触摸 屏 尺 十 接近 42in， 光 触 控 技术 变 得 性 价 比 
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更 高 。 因 此 ， 虽 然 从 技术 上 说 制造 一 个 52in 的 表面 声波 触摸 屏 是 可 行 的 ， 但 在 实际 应 用 中 
却 非 常 少 

表面 声波 起 初 只 是 一 项 单 触 点 技术 ,但 是 其 两 个 最 大 的 供应 商 Elo Touch Solutions 
和 General Touch (两 者 占据 大 多 数 市 场 份额 ) 在 2009 年 和 2010 年 分 别 开 发 了 支持 双 触 点 的 
触摸 屏 。Elo 的 方法 是 在 除了 45° 角 之 外 (如 15° 或 75°*) 增加 另 一 组 的 反射 器 ， 以 为 触 控 位 
置 提 供 另 一 种 数据 来 源 !351 。 双 触 点 表面 声波 的 主要 不 足 是 需要 很 大 的 压力 来 记录 触 点 一 一 
TE 20 ~80g 之 间 ， 具体 取 决 于 产品 情况 。 即 便 是 单一 触 点 ， 这 也 比 投射 电容 式 要 求 的 力度 
(SERNA) 大 得 多 。 两 个 手指 保持 足够 的 压力 ， 同 时 做 出 诸如 放大 或 旋转 的 手势 ， 或 是 需 
要 用 力 下 压 来 划 过 ， 这 些 都 不 是 良好 的 用 户 体验 。 一 些 一 体 化 的 Windows 7 联想 和 三 星 电脑 
型 号 与 双 触 点 表面 声波 曾经 一 起 营销 ,但 此 外 就 再 无 大 型 的 消费 市 场 存在 了 。Windows 8 已 
经 不 再 考虑 在 消费 市 场 投 放 表 面 声波 ， 因 为 Windows 8 触 控 规范 要 求 至 少 有 五 点 触 控 [537] 。 

标准 表面 声波 的 另 一 个 问题 在 于 其 要 求 使 用 边框 来 遗 章 玻璃 边缘 的 反射 器 。Elo Touch 
Solutions 和 General Touch 都 已 经 发 明了 无 边框 (AP FHE” “FFA” w AX 
边 ”) 的 两 点 触 控 版 本 。Elo Touch Solutions 的 方法 是 将 换 能 器 和 反射 器 移 到 玻璃 以 下 以 及 环 
绕 玻 璃 的 边缘 ， 这 样 瑞 利 波 就 能 平滑 地 从 前 表面 流向 玻璃 表面 的 后 部 。 由 于 LCD 框架 使 得 
玻璃 以 下 几乎 没有 空间 ，Elo Touch Solutions 使 用 单 组 并 使 其 多 路 传输 3] 。 成 型 的 边缘 和 换 
能 器 、 反 射 锅 的 位 置 使 得 该 结构 比 投射 电容 式 更 难以 整合 在 无 边框 的 装置 中 。 

由 前 面 可 知 ， 电 阻 式 触 控 技术 目前 在 商业 触 控 应 用 市 场 中 占有 很 大 的 利润 比例 ， 而 表面 
声波 和 表面 电容 技术 则 在 竞争 剩余 的 市 场 空 间 。 表 面 声波 的 主要 应 用 包括 公共 咨询 台 ( 移 
动 信 息 站 ) 、 电 子 销售 机 (POS)、 自 动 取款 机 和 游戏 机 等 。 表 面 声波 较 表面 电容 技术 有 更 多 
的 应 用 ， 这 是 因为 它 成 本 低 、 可 视 功 效 好 、 耐 用 程度 高 、 装 配 简单 且 供 应 商 更 多 。 这 些 优 势 
再 加 上 其 两 点 触 控 功能 ， 意 味 着 表面 声波 可 能 继续 发 挥 它 的 商业 化 用 途 。 表 2.9 列举 了 表面 
声波 触摸 屏 的 优势 和 劣势 。 



































表 2.9 表面 声波 触 控 技术 的 优 缺 点 





















































优点 缺点 
由 平面 玻璃 基板 导致 的 高 可 视 质量 没有 多 点 触 控 ( >2 点 ) 
手指 、 戴 手套 的 手 和 软 触 笔 可 以 激活 对 表面 污染 非常 敏感 ， 特 别 是 水 
非常 耐用 ; 可 以 用 钢化 玻璃 或 化 学 加 强 玻 璃 防爆 屏 需要 相对 较 高 的 碰 触 压力 (一 般 20 ~ 80g) 
相对 容易 安装 ， 防 水 和 /或 防 侍 版 本 可 用 要 求 一 个 软 (吸音 ) 触 控 物体 


2.6.2 ”声学 脉冲 识别 触 控 技术 (编号 7) 


声学 脉冲 识别 (APR) 技术 和 色散 信号 技术 (DST, FPA) 均 使 用 了 弯曲 波 。 弯 
曲 波 是 一 种 由 某 物体 作用 刚性 基板 表面 而 产生 的 机 械 能 量 。 它 不 同 于 其 他 表面 波 之 处 在 于 它 
穿行 整个 基板 的 厚度 ， 而 不 仅仅 是 在 材料 的 表面 ; 由 此 产生 的 一 个 优势 是 它 的 耐 刮 性 。 

当 诸 如 手指 或 触 针 碰 触 基板 时 ， 触 碰 位 置 会 产生 向 手指 外 扩散 的 弯曲 波 。 因 为 弯曲 波 向 
外 传递 ， 它 在 扩散 现象 的 影响 下 逐步 分 散 扩 展 。 弯 曲 波 通过 固体 材料 传播 的 速度 取决 于 波 
频 。 由 触 碰 引 起 的 推力 在 基板 内 生成 了 许多 不 同 频率 的 弯曲 波 。 由 于 扩散 ， 它 们 以 不 同 的 速 








54 KARA: 人 工 智能 下 的 人 机 交互 技术 


度 传播 到 玻璃 边缘 ， 而 并 非 以 统一 的 波 阵 面 。 结 果 ， 基 板 边缘 或 角落 的 传感器 就 接收 到 与 原 
始 脉冲 完全 不 一 样 的 波形 ; 波 的 形成 过 程 被 来 自 基板 内 层 的 反射 进一步 修改 。 最 终生 成 的 是 
大 量 的 混乱 波 集 ， 在 整个 基板 内 相互 影响 。 声 学 脉冲 识别 和 色散 信号 技术 的 核心 区 别 是 这 股 
混乱 的 波 集 是 如 何 处 理 的 。 

在 声学 脉冲 识别 触摸 屏 中 ， 玻 璃 基板 是 事先 通过 机 需 在 其 上 千 个 方位 进行 敲打 “定性 ” 
的 。 每 个 弯曲 波 的 “独特 标记 ”方位 被 抽样 并 记录 在 一 个 查阅 表 内 ， 该 表 存 储 在 可 长 久保 
存 的 与 某 个 基板 有 联系 的 内 存 里 。 操 作 时 ， 磁 触 产生 的 弯曲 波 由 四 个 不 对 称 分 布 在 基板 周边 
的 压 电 换 能 器 感知 ( 见 图 2.22)。 不 对 称 性 可 以 确保 独特 标记 尽 可 能 的 复杂 ; 高 度 的 复杂 性 
则 有 助 于 区 分 标记 。 控 制 器 处 理 四 个 换 能 需 的 输出 来 获得 当前 触 磁 的 标记 ， 并 将 其 与 查阅 表 
中 存储 的 样本 进行 比 对 ; 采样 点 间 插 值 被 用 来 计算 正确 的 触 碰 位 置 [?] 。 

声学 脉冲 识别 的 概念 在 21 世纪 初期 由 Tony Hardie - Bick 提出 ， 他 是 一 个 有 着 自己 公司 
的 个 人 发 明 家 。SoundTouch Ltd. Elo Touch Solutions 在 2004 年 前 后 收购 了 SoundTouch 公司 。 
在 开展 了 一 些 商业 化 活动 之 后 ，2006 年 公布 了 该 项 技术 。 这 是 为 了 取代 模拟 电阻 式 而 开发 
的 一 项 更 耐用 、 成 本 更 低 的 技术 ， 出 现在 2007 年 苹果 公司 使 多 点 触 控 成 为 产品 不 可 或 缺 的 
特性 之 前 。 
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图 2. 22 ”一 个 声学 脉冲 识别 触 控 传 感 器 由 一 个 玻璃 板 和 四 个 在 玻璃 层 后 部 的 压 电 换 能 器 组 成 。 当 
手指 或 其 他 物体 接触 玻璃 时 ， 弯 曲 波 就 会 在 玻璃 基板 内 产生 并 由 换 能 器 采样 ; 控制 器 决定 了 接触 位 置 。 
改编 自 Elo Touch Solutions 









































一 项 相似 的 基于 感知 弯曲 波 基本 原理 的 触 控 技术 也 同时 在 法 国 Sensitive Object 公司 ( 当 
时 称 作 “ReverSys”) 独立 开发 完成 [4] 。 该 公司 与 Elo Touch Solutions 的 知识 产权 并 未 被 相 
互 损 害 ， 然 而 它们 十 分 近似 的 交叉 存在 。 因 此 两 家 公司 在 2007 年 发 布 产 品 后 的 不 久 就 执行 
了 交叉 许可 证 协议 。 签 署 后 ， 两 家 公司 继续 独立 发 布 产 品 ， 因 为 协议 只 是 为 了 避免 对 现 有 知 
识 产 权 的 诉讼 而 并 非 往 后 共享 知识 产权 。Sensitive Object 的 核心 发 明 是 只 需 几 步 就 能 快速 定 
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性 基板 的 方法 ， 相 对 于 Elo Touch Solutions 用 机 器 手 散 击 基板 上 千 次 的 方法 。2010 年 1 月 Elo 
Touch Solutions 以 6200 万 美元 收购 了 Sensitive Object aj 4"! 。 两 家 公司 知识 产权 的 合并 可 
谓 是 强 强 联手 。 

然而 ， 即 使 组 合 性 能 增强 ， 声 学 脉冲 识别 由 于 其 对 弯曲 波 的 依赖 性 仍 存在 许多 局 限 。 最 
严重 的 局 限 是 声学 脉冲 识别 并 没有 “保持 ”功能 (相当 于 长 按 拖 搜 鼠 标 ) 。 当 接触 物体 停止 
移动 时 ， 弯 曲 波 也 就 不 再 生产 了 。 这 意味 着 在 Windows 桌面 上 普遍 使 用 的 拖 搜 - 停 - 拖 搜 次 
序 无 法 实现 ， 因 为 声学 脉冲 识别 驱动 程序 必须 在 开始 “ 停 ” 的 时 候 发 出 一 个 自动 “ 放 开 鼠 
标 ” 的 命令 。 这 实质 上 限制 了 该 技术 仪 在 商业 范围 内 使 用 ( 即 非 Windows 用 户 界 面 ) 而 并 
不 面向 个 人 消费 者 。 

声学 脉冲 识别 的 男 一 个 重要 不 足 是 它 需 要 “ 敲 击 ”来 产生 足够 的 可 以 被 探测 到 的 弯曲 
波 。 如 果 一 个 胆 愤 或 犹豫 的 用 户 悄悄 地 接近 声学 脉冲 识别 触摸 屏 并 按 下 而 不 是 有 意识 的 敲 击 
(即便 是 用 户 用 力 地 按 下 )， 这 个 触 控 将 无 法 被 识别 。 除 了 缺乏 长 按 拖 搜 功能 和 需要 明显 敲 
击 之 外 ， 还 有 一 个 局 限 是 其 本 质 的 单 点 触 控 技术 。 在 多 点 触 控 越 来 越 普及 的 今天 ， 单 点 触 控 
技术 显得 越发 无 足 轻重 了 。 

声学 脉冲 识别 对 弯曲 波 的 依赖 产生 了 三 个 额外 人 缺点。 首先， 该 触 控 技 术 并 不 具有 确定 
性 。 多 次 触 碰 完全 相同 的 位 置 会 在 组 点 坐标 周围 产生 一 个 “点 集 ”， 这 意味 着 每 次 如 果 用 触 
控 笔 比划 并 不 会 产生 完全 相同 的 结果 。 这 和 模拟 电阻 式 有 很 大 的 不 同 。 后 者 在 触 碰 完 全 相同 
的 位 置 总 能 产生 相同 的 靶 点 。 

其 次 ， 声 学 脉冲 识别 的 弯曲 波 侦 测算 法 由 于 以 下 两 个 原因 无 法 最 优化 : 

1) 由 一 系列 快速 剖 击 产生 的 间 欣 性 弯曲 波 ， 比 如 出 现在 自动 贩卖 机 的 应 用 中 。 

2) 由 拖 搜 产生 的 持续 弯曲 波 ， 比 如 在 相同 的 自动 贩卖 机 签 下 自己 的 名 字 。 

对 “一 般 通用 程序 ”的 优化 使 得 快速 融 击 和 拖 搜 的 性 能 无 法 实现 最 佳 。 

第 三 个 也 是 最 后 一 个 局 限 是 APR 固定 (RZ) 工艺 触摸 屏 对 优化 性 能 的 重要 性 。 这 只 
需要 想 想 敲 击 一 个 自然 悬挂 的 玻璃 面 和 一 个 四 方 夹 紧 固 定 的 玻璃 面 的 区 别 ， 就 很 容易 得 知 
了 。 也 就 是 说 ， 全 球 的 产品 制造 商 和 系统 装配 商都 必须 接受 关于 如 何 适当 装 配 声学 脉冲 识别 
触摸 屏 的 培训 。 因 此 ， 声 学 脉冲 识别 作 一 个 零 部 件 并 未 在 市 场 推广 ， 只 是 被 Rlo Touch Solu- 
tions 装配 到 了 触 控 系统 (Rm) 中 。 

鉴于 投 映 电 容 式 技术 的 主导 地 位 和 许多 上 述 局 限 性 ， 声 学 脉冲 识别 如 今 已 不 可 能 成 为 主 
流 的 触 控 技 术 。 但 是 Elo Touch Solutions 正在 把 声学 脉冲 识别 有 限 的 市 场 潜力 与 POS 应 用 结 
合 ， 使 得 上 述 局 限 不 再 重要 。 除 了 触摸 屏 显 示 系 统 之 外 ，Elo Touch Solutions 也 许可 以 吸纳 
ReverSys 在 制造 触 敏 平面 上 的 优势 ， 从 而 开发 更 多 非 传统 的 专营 市 场 。 比 如 ， 可 以 让 智能 手 
机 的 后 学 实现 触 敏 。 

由 于 声学 脉冲 识别 和 色散 信和 号 技术 非常 相似 ， 两 种 技术 的 优 缺 点 可 以 合并 总 结 在 表 
2. 10 中 。 






































































































































56 ”实感 交互 人 工 智能 下 的 人 机 交互 技术 


表 2.10 Elo Touch Solutions 的 声学 脉冲 识别 技术 和 3M Touch System 的 DST 基于 感知 弯曲 波 的 优 缺 点 




























































































用 手指 、 触 控 笔 或 其 他 触 碰 物体 无 “长 按 拖 搜 ” 
由 于 平面 基板 而 具有 高 可 视 质量 无 多 点 触 控 
十 分 简易 的 传感器 〈 玻 璃 基板 + 四 个 压 电 传感器 ) 要 求 足 够 的 触 控 速 度 〈 殴 击 ) 以 生成 弯曲 波 
it 污染 ; 面 受 刊 马 E 5 HI SAER 
e 面 污染 物 ;， 可 在 表面 受 乔 或 接触 外 部 物体 的 情况 下 和 外边 内 的 固定 赤 紧 工艺 十 分 重要 
非 确定 性 操作 (“多 点 集 ” ) 
很 容易 制 成 无 边框 屏幕 ( 齐 平 包 边 ) 由 于 快速 剖 击 ( 间 吹 性 弯曲 波 ) 和 拖 搜 (持续 性 弯曲 波 ) 
难以 实现 优化 

















2.6.3 ”色散 信和 号 技术 触 控 技 术 (编号 8) 


色散 信号 技术 (DST) 是 3M Touch System 的 商标 名 ， 该 技术 是 一 项 基于 感知 弯曲 波 的 
触 控 技术 。 

Elo Touch Solutions 的 声学 脉冲 识别 (前 一 节 所 述 ) 和 3M Touch System 的 色散 信号 技术 的 
核心 区 别 在 于 ， 色 和 散 信 号 技术 能 够 实时 分 析 弯 曲 波 以 计算 触 点 位 置 ， 而 不 是 把 磁 触 生成 的 弯曲 
波 与 存储 的 特性 样本 进行 比 对 。 图 2. 23 展现 了 弯曲 波 在 玻璃 基板 上 的 效果 。 第 三 幅 图 表现 了 
声学 脉冲 识别 采样 并 比 对 的 波形 ; 第 四 幅 图 体现 了 色散 信号 技术 实时 算法 处 理 的 样式 结果 。 

在 介绍 声学 脉冲 识别 时 提 到 ， 经 过 基板 的 弯曲 波 传 输 速度 随 频率 的 改变 而 发 生 改 变 ， 这 
能 导致 信号 的 扩散 或 推广 。 接 收 到 信号 后 ， 色 散 信和 号 技术 将 会 重组 扩散 的 信号 ， 该 过 程 包括 
运行 允许 延迟 和 频率 差别 的 程序 ， 再 运行 四 个 传感器 之 间 的 相关 性 估算 ， 最 终 三 角 测 距 出 原 
始 的 触 磁 坐标 。 实 际 上 ， 这 属于 本 身 耐 受信 号 反射 和 干扰 的 扩展 频谱 技术 ， 本 质 上 能 容忍 信 
号 的 反射 和 干扰 和] 。 

3M Touch System 在 2003 年 获得 了 英国 NXT PLC (New Transducers 公司 ) 色散 信和 号 技术 核 
心 技术 的 独家 许可 。NXT (后 于 2010 年 更 名 为 了 Wave Technolgoies PLC, F 2013 年 再 次 更 名 
为 Redux Labs) 以 首创 平面 扬声器 闻名 。 在 该 设备 中 ， 压 电 换 能 吉安 装 在 硬 基板 的 边缘 上 并 受 
到 音频 信号 的 驱使 ， 使 得 基板 具有 扬声器 振动 膜 的 功能 。NXT 已 经 意识 到 (并 获得 专利 权 ) 
相反 的 假设 ， 即 基板 的 振动 (弯曲 波 ) 可 以 被 换 能 器 感知 并 用 来 定位 波源 〈 触 点 位 置 ) 。 




















1. 开 始 触 摸 2. 色 散 反 射 开始 3. 多 次 反射 的 高 度 4. DST 算 法 处 理 后 的 模式 
复杂 色散 模式 


图 2.23 这 组 图 展现 了 弯曲 波 在 玻璃 基板 上 呈现 的 效果 。3 是 声学 脉冲 识别 脱 机 采样 和 比 对 的 典 
型 模式 ; 4 是 通过 色散 信号 技术 实时 计算 处 理 的 模式 结果 。 来 源 : 改编 自 3M Touch System 
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3M Touch System 和 NXT 合作 开发 了 大 量 的 商业 化 色散 信号 技术 。2004 年 3M 提前 发 布 
了 其 首 款 色散 信号 技术 产品 的 声明 并 于 2006 年 实际 发 行 。 起 初 上 市 并 不 顺利 ; 3M Touch 
System 一 年 多 后 宣布 首 款 产 品 下 线 ， 并 终于 在 2007 年 重新 发 布 。 由 于 当时 3M Touch System 
的 主打 产品 是 大 小 在 5.7 ~32in 的 电容 式 触 摸 屏 ， 为 了 避免 冲击 这 一 产品 市 场 ， 它 把 色散 信 
号 技术 定位 在 尺寸 32 ~ 55in 的 大 画幅 显示 需 开 发 上 。 相 反 ，Elo Touch Solutions 则 聚焦 于 
32in 以 下 的 产品 一 一 并 不 是 出 于 竞争 的 考虑 ， 而 是 因为 其 无 法 使 声学 脉冲 识别 技术 在 数码 广 
告 牌 应 用 中 发 挥 最 佳 性 能 (Elo 的 声学 脉冲 识别 数码 广告 牌 产品 于 2012 年 从 市 场 下 线 ) 。 

色散 信号 技术 应 用 程序 类 似 那些 使 用 摄像 光学 和 传统 红外 技术 原理 的 应 用 ; 交互 信息 和 
数码 广告 牌 是 其 主要 关注 点 。 色 散 信号 技术 和 声学 脉冲 识别 具有 很 多 相似 的 基本 局 限 ， 见 表 
2. 10 总 结 。 

KAZE 2011 年 底 ，3M Touch System 停止 了 对 所 有 色散 信和 号 技术 的 进一步 开发 。 没 有 持 
续 的 研发 意味 着 该 技术 迟早 会 失去 竞争 力 。 虽 然 3M Touch System 仍 在 持续 在 现 有 交互 信息 
和 数码 广告 牌 应 用 中 使 用 该 技术 ， 但 它 有 可 能 在 五 年 内 从 市 场 消 失 。 


2.7 光学 触 控 技术 
































2.7.1 传统 红外 线 触 控 技 术 (编写 9) 


首 个 广为人知 的 红外 触摸 屏 范例 于 1972 年 诞生 于 伊利 诺 伊 大 学 的 PLATO IV 教学 系统 
中 i$]。 该 系统 内 ,一 个 16 x 16 的 网 格 红 外 触摸 屏 被 覆盖 在 了 一 个 橘 黄色 的 等 离子 位 图 显示 
器 之 上 上， 目的 是 为 了 提供 手动 选择 的 功能 。 

其 中 一 个 最 早 的 红外 触摸 屏 商业 产品 是 于 1983 年 问世 的 HP - 150 一 一 惠普 的 第 一 个 触 
控 微电脑 ( 它 有 一 个 9in 的 CRT 并 带 有 CP/M 操作 系统 )'*1。 在 20 世纪 80 年 代 和 90 年 代 ， 
Carroll Touch 曾 被 认为 是 红外 触摸 屏 的 领军 供应 商 。AMP 于 1984 年 收购 了 Carroll Touch, 
1999 年 ，Tyco International 收购 了 AMP 并 随后 在 同年 内 收购 了 Raychem， 后 者 在 1986 年 就 
已 经 收购 了 Elo Touch Solutions (Elographics ) 。 这 样 Carroll Touch 在 1999 年 就 成 为 了 Elo 
Touch Solutions 的 一 部 分 。 

如 图 2. 24 所 示 ， 一 个 传统 的 红外 触摸 屏 在 屏幕 框架 相 邻 两 边 装 有 红外 LED ， 另 两 边 则 
ZUG. A LED 按 序列 脉冲 ， 产 生 的 光 由 对 面 的 光 检 器 接收 (该 序列 脉冲 使 该 项 
技术 又 称 作 “扫描 式 红外 光 ”) 。 因 此 ,在 X 和 YY 方向 的 红外 光束 网 格 得 以 在 屏幕 表面 的 上 
方形 成 。 一 旦 手指 或 任何 非 红外 透 光 体 阻隔 光束 ， 控 制 器 就 会 计算 触 点 位 置 。 

20 世纪 90 年 代 初 期 ，Elo Touch Solutions 对 红外 线 技 术 做 出 的 一 个 细微 却 意义 重大 的 改 
进 是 提出 了 “ 单 发 多 接 ” 的 概念 。 即 改变 原先 的 发 射 和 接收 一 对 一 的 对 应 模式 ， 而 使 每 个 
LED 发 射 锅 能 够 为 最 多 五 个 接收 器 所 见 。 这 提高 了 Touch System 的 稳健 程度 ， 因 为 故障 的 接 
收 器 不 会 再 在 触摸 屏 上 留 下 盲点 。 检 查 静 止 物体 和 排查 物体 变化 的 概念 得 到 改进 。 这 防止 了 
污染 物 〈 如 一 团 花 生效 ) 制造 屏幕 育 点 ; 使 用 多 个 接收 器 可 以 “四 处 寻找 ”污染 物 ， 因 此 
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红外 探测 器 信号 (光电 流 ) 


红外 发 射 器 


Z 
180008) 





玻璃 、 塑 料 或 无 基板 印 制 电路 板 


2.24 传统 的 红外 线 触 控 传 感 器 是 一 个 相 邻 两 边 是 红外 LED、 男 两 边 是 红外 光 检 器 的 框 
W, LED 产生 了 红外 光 网 格 ; 当 一 个 无 法 透 过 红外 线 的 物体 阻挡 光束 时 ， 触 点 就 可 以 被 识别 。 
Wéi H Elo Touch Solutions 











减 小 了 它 的 影响 。 “传统 ”一 词 多 指 提 及 的 红外 线 类 型 与 20 HE 90 年 代 的 在 根本 上 是 相似 
的 。 近 期 还 开发 了 一 些 更 新 型 的 红外 线 ， 这 些 将 稍 后 在 本 节 讨 论 。 

红外 线 在 已 经 讨论 过 的 主流 触 控 技术 中 所 占 市 场 份额 最 小 ; 据 DisplaySearch 报告 ，2012 
年 所 有 市 场 规模 约 有 价值 4000 万 美元 021 。 几 乎 所 有 份额 都 属 商业 应 用 领域 ,包括 自动 取款 
机 、 自 动 销售 点 终端 、 各 种 资讯 服务 台 以 及 诸如 交互 数码 标识 和 交通 导 视 系统 等 大 画幅 显示 
器 。 红 外 线 是 最 为 稳定 的 触 控 技术 之 一 ， 能 够 容忍 恶劣 的 环境 ， 比 如 ， 它 可 以 承受 日 光 直 
射 ， 也 可 以 密封 防 污 染 。 因 此 ， 它 常 被 用 在 室外 触摸 屏 应 用 中 。 红 外 线 的 独特 之 处 在 于 它 实 
际 不 需要 任何 基板 一 一 红外 线 光束 能 够 被 直接 放置 于 显示 器 上 而 无 需 介 入 玻璃 。 也 因 如 此 ， 
它 通常 被 称 为 “红外 触 框 ”而 不 是 “红外 触摸 屏 ”。 

除了 大 屏 之 外 的 其 他 大 多 数 应 用 程序 里 使 用 红外 线 是 因为 : 中 设备 OEM 长 期 使 用 红外 
线 并 认为 其 自 有 市 场 内 最 好 的 技术 (比如 ，IBM 在 自动 销售 点 的 应 用 ) ; @) 它 的 环保 性 。 这 
些 原 因 说 明了 红外 线 相对 不 太 可 能 被 投射 电容 式 取代 。 但 是 在 室内 大 型 屏幕 应 用 中 ， 它 正面 
临 着 来 自 摄像 光学 技术 的 巨大 挑战 ， 特 别 是 后 者 在 超大 显示 器 中 成 本 较 红外 线 而 言 更 低 。 

















第 2 章 和 触觉 感知 59 








红外 线 起 初 是 一 项 单 点 触 控 技术 ; 当 多 点 触 控 显得 越发 重要 时 ， 主 要 供应 商 纷纷 开始 文 
持 某 种 程度 上 的 两 点 触 控 。 由 于 只 有 两 种 可 用 的 信息 轴 (X 和 YY) ， 两 点 触 控 并 不 能 在 缺乏 
额外 信息 时 发 挥 作用 (同样 的 问题 也 出 现在 自 电容 的 “ 假 性 触 磁 ” 中 )。 这 类 有 限 的 多 点 触 
控 有 时 又 被 称 为 “一 个 半 触 控 ” 。 在 2010 FEA, Elo Touch Solutions 开发 出 了 一 个 巧妙 的 
方法 : 使 用 对 角 光 束 增加 另 一 个 信息 轴 (被 称 为 额外 维度 U)IS] 。 除 了 在 双 触 点 恰好 与 对 
角 光 一 致 (相互 封 挡 ) 的 特殊 情况 下 ， 这 在 大 多 数 情况 下 使 得 双 触 点 清晰 可 辨 。 可 惜 的 是 ， 
由 于 其 成 本 很 高 ，Elo Touch Solutions 从 未 将 这 项 技术 大 量 投入 生产 。 

传统 红外 光 可 能 作为 一 种 独特 的 技术 会 继续 存在 ， 特 别 是 对 需要 抵抗 外 界 环 境 影响 的 应 
用 来 说 尤为 重要 。 未 来 五 年 内 中 小 规模 的 市 场 份额 将 保持 相对 稳定 ,但 是 其 在 大 画幅 应 用 的 
市 场 占有 率 则 可 能 由 于 摄像 光学 技术 的 发 展 而 下 降 。 

传统 红外 线 触 探 技术 的 优 缺 点 见 表 2. 11。 

表 2.11 传统 红外 线 触 控 技 术 的 优 缺 点 


































































































































































































优点 TA 
数 为 单 点 触 控 ; TP RARR “一 个 半 
可 延展 至 很 大 面积 (超过 100in) Re 触 控 ， 对 两 点 触 控 的 支持 有 限 (“一 个 半 触 
FAG, PPA FEE RWC SAAC TRAE AERTS 
RTT RG IMR A ACRE SF AREA) ; 
DT 基板 而 具有 高 光学 性 能 
由 于 平面 玻璃 基板 而 具有 高 光学 性 能 ee di 
容易 装配 ， 有 无 基板 均 可 ， 甚 至 可 以 作为 自己 安装 的 杠 
TERA: EE TMEAB C2) 包 边 的 设计 必须 包括 一 个 红外 线 透明 窗口 
AS A 
TET, PTAA oR (CER END AL TEEDE AGH, ER) 
可 以 环保 密封 用 于 户外 较 低 分 状 素 和 准确 度 
可 以 搞 外 界 密集 红外 线 十 扩 《 比如 75Kix) FU REED ERP PIE ICE Smm OR TT EPR SAREE) 
比 起 摄像 光学 耗费 成 本 相对 更 高 〈 成 本 随 着 参数 比例 改 
变 ) 


2.7.1.1 波导 红外 技术 

始 于 2000 年 左右 ,一 家 澳大利亚 的 名 为 RPO 的 初创 企业 开始 开发 针对 “最 后 一 公里 ” 
远程 通信 市 场 的 聚合 物 光 波导 。2002 年 ， 由 于 纤维 和 光纤 产品 的 过 度 扩 张 , “最 后 一 公里 ” 
市 场 也 随 之 萧条 。 当 时 RPO 重组 并 开始 寻找 新 的 应 用 产品 。2004 年 ， 他 们 决定 在 一 系列 传 
统 的 红外 触摸 屏 中 开始 使 用 其 开发 的 光波 导 技 术 '%*] ， 并 将 其 命名 为 “数码 波导 触 控 
(DWT)”。 如 图 2. 25 所 示 ， 这 一 概念 是 指使 用 单一 光源 和 两 套 光 波导 传输 X 和 YY 方向 的 光 ， 
同时 另 一 对 波导 收集 光束 并 将 其 导向 一 个 多 像素 光 检 测 器 。 生 成 波导 的 制造 工艺 与 LCD 使 
用 的 照相 平 印 技术 相似 。 这 实现 了 高 分 辩 率 ， 光 导 渠 道 也 小 到 每 个 10km。 

在 现实 中 实施 这 个 概念 的 困难 和 限制 常常 发 生 ， 这 导致 出 现 了 一 个 稍微 更 为 复杂 的 设 
计 ， 如 图 2. 26 所 示 。 

在 有 限 的 边界 空间 的 限制 下 ，RPO 仪 使 用 一 对 光波 导 来 搜集 光 并 将 其 导向 接收 光 检 测 
器 〈 一 个 含有 X 和 了 100 多 个 像素 的 线路 扫描 CMOS 感应 器 ) 。 为 了 将 光束 散布 到 整个 基 
be, RPO 使 用 双 透 镜 的 IR - LED ， 一 个 针对 X， 另 一 个 针对 Y。 基 板 本 身 用 作 一 个 光波 导 
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[使 用 全 内 反射 (TIR) ] ， 对 面 两 侧 的 抛物 面 反射 器 将 光 的 方向 进行 180° 改 变 ， 并 帮助 在 基 
板 上 扩散 光源 。 图 2. 26 的 白 线 指出 了 一 个 从 LED 左 侧 触摸 屏 到 光 检 测 器 的 光束 路 径 ， 分 别 
是 顶 视图 和 侧 视 图 。 产 生 的 结果 是 一 个 低 成 本 、 高 性 能 的 2 ~15in 〈 非 固定 ) 范围 内 最 优 的 
红外 和 触摸屏 4] 。 



















































光源 基板 (玻璃 ) 
抛物 面 反 射 器 
液晶 显示 器 红 
TA k FAT 光路 (以 白色 显示 ) 
发 送 侧 sae | 
波导 接收 侧 波导 
eee 
riam ey 
摄影 机 光路 
Spg es E 
IG (ASIC) 使 用 TIR) 
图 2.25 RPO 波导 红外 触 控 技术 也 图 2.26 RPO 的 3.5in 波导 红外 触摸 屏 的 
概念 网。 来源: RPO 实际 结构 。 来 源 : RPO 图 片 ; 作者 附注 释 和 箭头 

















该 技术 对 带 有 反射 屏幕 的 装置 最 为 适用 (比如 ， 使 用 电子 墨 电泳 显示 器 的 电子 书 ) 。 红 
外 线 能 够 在 屏幕 上 操作 而 无 需 加 层 与 反射 屏幕 形成 了 绝 佳 配 比 ， 因 为 后 者 需要 有 效 地 使 用 每 
个 存在 的 光子 (RPO 的 玻璃 基板 作为 一 种 波导 ， 可 以 在 电子 书 显示 器 的 下 面 安装 ) 。 但 是 正 
如 所 有 的 触 控 技术 ,波导 红外 线 在 其 应 用 中 也 有 一 些 如 下 内 在 的 局 限 : 

。 由 于 仅 有 两 个 位 置 的 信息 源 ， 多 点 触 磁 仅 限于 两 点 ; 假 性 触 碰 减 少 到 最 小 ， 但 并 未 
完全 消除 。 

。 需要 包 边 来 保护 波导 和 反射 器 。 总 体高 度 只 有 约 1. Smm， 但 仍然 不 可 为 零 ， 正 如 今 
天 的 智能 手机 和 平板 电脑 屏幕 上 的 包 边 处 理 。 

© 该 技术 对 屏幕 上 的 残留 物 相 对 敏感 ， 因 为 波导 通道 距 表面 仅 200km。 

RPO 于 2007 年 发 布 该 项 技术 ，2008 年 改进 了 其 性 能 ，2009 年 增加 其 尺寸 ， 并 在 2010 
年 在 一 台 13. 3in 的 笔记 本 电脑 中 应 用 了 该 技术 一 一 这 些 都 在 国际 信息 显示 学 会 (SID) 的 展 
示 周 会 议 上 呈现 。RPO 当时 与 一 家 非常 大 的 LCD 电子 消费 品 制造 商 合作 (一 个 大 客户 )。 
当 合作 关系 在 2010 年 末 突 然 终 结 时 ，RPO 未 对 其 他 资金 渠道 做 好 充分 准备 ， 导 致 其 无 法 支 
持 电 子 消 费 品 市 场 对 生产 量 的 要 求 。 在 超过 10 年 的 总 价值 5500 万 美元 的 投资 之 后 ，RPO 最 
终于 2011 年 清算 。 其 资产 (专利 ) 的 销售 在 2012 年 进行 。 目 前 尚 不 清楚 该 技术 是 否 再 次 投 
人 使 用 。 

该 项 技术 的 一 个 更 深 历史 层面 值得 一 提 。 早 在 RPO 开始 设想 他 们 的 发 明之 前 ， 有 一 项 
十 分 类 似 波导 红外 的 触 控 技 术 已 经 发 明 并 获得 了 专利 。 这 是 由 位 于 加 利 福 尼 亚 州 硅谷 的 初创 
企业 Poa Sana (斯 瓦 硕 里 语 “ 真 酷 ” 的 意思 ) 公司 研制 。Poa Sana 的 第 一 项 专利 在 1997 年 
申请 并 于 1999 年 发 布 [8] 。 在 1997 ~ 2002 年 间 ，Poa Sana 在 商业 化 推广 技术 方面 并 无 太 大 
建树 ， 并 把 筹集 的 3500 万 美元 主要 用 于 研发 上 。2003 年 ， 当 时 在 寻找 进入 触摸 屏 市 场 机 会 
的 美国 国家 半导体 公司 收购 了 Poa Sana 公司 的 专利 权 。 在 花费 了 几 年 时 间 钻 研 该 技术 和 评 
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估 其 市 场 机 会 后 ， 国 家 半导体 公司 最 终 认为 该 技术 的 前 景 并 不 光明 ， 于 是 他 们 又 将 Poa Sana 
o 全 了 创始 人 。 两 家 公司 间 没 有 发 生 过 任何 法 律 纠 纷 ， 因 为 没有 哪 家 可 以 支付 足够 
金额 诉 诸 法 律 。 

大 概 有 三 个 基本 原因 导致 波导 红外 技术 在 当时 的 失败 。 总 结 如 下 : 

。 应 用 该 技术 的 最 佳 产品 〈 电 子 书 和 其 他 带 有 反射 显示 器 的 产品 ) 仅 在 2010 年 占有 一 
个 非常 小 的 专营 市 场 (要 知道 ,“ 好 钢 要 用 在 刀刃 上 ”， 任 何 技术 必须 要 在 至 少 一 个 应 用 中 
脱颖而出 才能 获得 成 功 ) 5] 。 

。 本 质 上 该 技术 无 法 支持 真正 的 多 点 触 控 和 章平 包 边 设计 ， 两 者 在 2007 年 苹果 手机 上 
市 后 成 为 消费 者 电子 产品 的 基本 元 素 。 

。 波导 技术 限制 了 触摸 屏 尺 寸 ， 不 超过 14in 的 大 小 使 其 应 用 无 法 在 许多 其 他 潜在 市 场 
推广 。 

任何 技术 都 有 其 最 佳 的 时 间 和 地 点 ， 因 此 可 以 说 波导 红外 的 机 遇 还 尚未 到 来 。 至 少 一 
公司 (Nitto Denko) 已 经 提交 申请 并 在 其 技术 领域 获得 了 专利 批准 。 这 ee ees ep ern 
全 消逝 。 


2.7.2 多 点 触 控 红外 技术 (编号 10) 


多 点 触 控 红外 技术 是 一 个 依靠 红外 LED 发 射 器 和 光 检 测 需 的 新 成 像 方法 ， 两 组 配件 较 
其 在 传统 红外 触摸 屏 的 使 用 并 无 不 同 。 新 方法 支持 达到 32 个 以 上 的 手指 同时 触 磁 ; 主要 不 
Hepat AC ie ete LA r 在 大 多 数 的 应 用 中 ， 该 控制 器 使 用 

可 能 多 的 接收 器 来 捕 提 所 有 单个 发 射 器 生成 的 触 碰 屏幕 物体 的 阴影 ， 而 不 仅仅 是 寻找 成 对 
Seta 

使 用 在 这 种 成 像 方法 的 红外 发 射 器 和 探测 需 主 要 有 三 种 设计 。 前 两 种 由 其 创始 企业 发 
M: 中 研发 了 这 个 技术 并 在 2009 年 1 月 发 布 首 个 产品 的 PQ Labs; @Image Display System; 
(3) 目 前 尚 无 法 找到 具体 的 发 明 单位 。 

如 图 2. 27 所 示 ， 一 个 红外 LED 发 射 带 一 闪光 ， 许 多 或 所 有 的 在 对 面 两 边 或 三 边 的 红外 
光 检 测 器 就 会 记录 下 它们 的 光 强 度 ， 生 成 一 个 单 像素 “图 像 ”*”， 它 能 显示 所 有 LED 和 光 检 测 
器 之 间 的 物体 阴影 。 每 个 图 像 像素 〈 即 来 自 某 个 光 检 测 器 的 数据 ) 通常 都 以 灰 度 图 展示 ， 
这 对 勾画 移动 物体 的 轮廓 十 分 有 用 ， 因 为 现实 的 阴影 在 物体 位 移 时 并 没有 显著 的 轮廓 。 每 次 
红外 LED 闪烁 都 会 “重复 ”这 个 照相 过 程 。 这 个 过 程 速 度 极 快 ， 归 并 一 起 并 按照 数学 数组 
排序 的 图 像 '%1 能 够 使 相对 大 量 的 有 影 物 体 被 同时 追踪 。 

用 于 所 有 三 种 结构 的 硬件 也 都 相对 相似 。 A ed 点 触 控 红 外 产品 的 体验 大 多 是 
由 使 用 算法 的 质量 决定 的 。 这 些 算法 用 来 分 析 “ 阴 影 图 ”的 数据 ， 别 除 重 影 点 ， 人 处 理 庶 挡 
并 追踪 移动 和 非 移动 物体 。 

目前 该 技术 的 供应 商 为 数 不 多 ， 最 有 名 的 是 PQ Labs (该 技术 的 创始 人 )、Citron ( Dre- 
amTouch™ mhf) , Image Display System ( PulseIR™ 品牌 ) TimeLink 和 ZaagTech。 

该 技术 使 用 的 资源 的 两 个 核心 特征 是 高 速 排序 和 大 量 持续 的 图 像 处 理 。 因 为 该 技术 可 实 
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图 2. 27 多 触 点 红外 触摸 屏 通常 使 有 用“ 成像” 法。 目前 有 三 种 结构 : PQ Labs 的 图 a, Image 
Display System 的 图 b 以 及 不 明 来 源 的 图 c。 这 些 结构 都 比较 相似 ， 每 个 红外 LED 发 射 器 一 闪光 ， 
许多 或 所 有 的 在 对 面 两 边 或 三 边 的 红外 光 检 测 需 就 会 记录 下 它们 的 光 强 度 ， 生 成 一 个 单 像素 “图 
像 ”， 它 能 显示 所 有 LED 和 光 检 测 器 之 间 的 物体 阴影 












































现 的 最 大 分 辨 率 与 红外 光 检 测 需 之 间 的 间隔 (通常 直径 为 5mm) 密切 相关 ， 这 种 类 型 的 触 
摸 屏 线路 图 可 以 显示 其 呈 “ 阶 梯 状 ”或 “锯齿 状 ”"。 同 样 ， 随 着 接触 物体 离 红 外 LED 越 来 
越 近 或 变 得 越 来 越 大 ， 它 们 的 阴影 也 会 放大 ， 这 样 就 减少 了 每 个 图 像 可 承载 的 数据 量 。 

令 人 不 解 的 是 ， 该 技术 的 主要 问题 在 于 缺乏 清晰 的 应 用 。 它 似乎 更 多 的 是 为 了 迎合 主流 
消费 对 多 触 点 的 热衷 而 并 非 出 于 满足 实际 应 用 的 需要 。 当 下 的 商业 红外 触摸 屏 应 用 极 少 需要 
超过 两 点 的 触 控 ， 而 且 也 从 未 有 人 定义 过 任何 一 个 真正 的 20 ~ 40 点 的 触 控 应 用 。 另 一 个 障 
碍 是 识别 哪个 触 点 归属 哪个 用 户 的 问题 ,这 尚未 开发 出 良好 的 (实际 的 ) 解决 方案 。 在 大 
型 水 平 显 示 器 (游戏 桌面 ) 上 进行 的 多 人 游戏 也 许 是 多 点 触 控 红外 技术 的 最 佳 机 会 但 是 
不 清楚 该 技术 是 否 能 够 满足 程序 对 速度 和 清晰 度 的 要 求 。 

多 点 触 控 红外 技术 因为 受 限 于 分 辨 率 、 速 度 和 最 小 接触 物体 尺寸 而 不 大 适合 交互 白板 应 
用 。 交 互 白板 应 用 总 体 上 需要 一 支 触 控 笔 以 及 快速 识别 抬 笔 小 于 lmm 的 距离 。 由 于 红外 发 射 
器 放置 在 屏幕 表面 ， 任 何 形式 的 红外 线 要 达到 抬 笔 识别 的 要 求 非常 困难 。 虽 然 多 点 触 控 红 外 技 
术 也 应 用 于 白板 产品 (特别 是 来 自 PQ Labs 的 亚洲 竞争 商 ) ， 获 得 的 用 户 体验 大 多 并 不 积极 。 

















多 点 触 控 红 外 技术 的 优 缺 点 见 表 2. 12, 

对 当前 多 点 触 控 红外 技术 发 展 状况 的 评价 可 以 通过 访问 PQ Labs 的 网 站 (该 技术 的 绝对 
先锋 ) 了 解 。 在 本 书 编写 的 2013 年 ， 该 网 站 的 展示 页 面 51 宫 括 了 七 部 各 2. 5min 的 视频 ; 
在 全 部 18min 的 视频 中 ， 几 乎 没有 任何 应 用 显示 使 用 超过 两 点 的 触 控 。 最 引 人 注 目的 应 用 是 
一 个 双人 空中 曲棍球 比赛 ， 每 人 使 用 两 把 球 棍 。 

另 一 方面 ， 继 续 发 据 PQ Labs 网 站 可 以 发 现 关 于 消除 该 技术 诸多 缺点 的 市 场 呼声 很 高 。 
比如 ， 他 们 声称 通过 加 入 10 个 “轻型 处 理 器 ”( 某 种 尚未 定义 的 CPU) 分 散 了 控制 器 的 处 
理工 作 量 ， 因 为 这 些 处 理 需 能 够 执行 大 多 数 在 触摸 屏 框架 内 的 多 点 处 理 ， 因 此 优化 了 触 探 速 
度 和 准确 度 。PQ Labs 声称 最 小 触 体 尺 才 仅 为 1.5mm ( 相 比 起 大 于 5mm 的 通常 规范 ) 一 一 
只 是 该 描述 并 未 出 现在 产品 规范 中 ， 而 是 在 其 市 场 产品 的 宣传 中 有 所 提 及 。PQ Labs 声称 已 
经 “优化 的 手写 算法 和 独特 的 白板 模式 ”能 够 使 其 产品 支持 清晰 复杂 的 手 制 绘 图 ， 比 如 数 
学 公式 。 他 们 还 称 产品 不 受 “ 普 曲 ” 和 “恶劣 的 照明 环境 ”影响 一 一 但 并 未 提供 一 个 “最 
小 平坦 度 ” 或 “最 大 环境 红外 光照 度 指数 ”的 具体 规范 。 

表 2.12 ”多 点 触 控 红外 技术 的 优 缺 点 
优点 缺点 
触 点 可 从 2 点 增 至 32 点 以 上 ( 仅 控 制 器 改变 ) 大 屏 市 场 中 对 多 点 触 控 的 需求 不 显著 
同 多 数 传统 红外 缺点 相同 〈 预 触 磁 感 知 、 横 截面 高 度 、 电 



























































同 多 数 传统 红外 优势 相同 〈 可 调整 大 小 、 激 活 面 广 、 零 


















































ane po KISE, RIRE, RARE, MERA AE E 
触 碰 作 用 力 、 光 学 性 能 高 、 耐 用 、 可 密封 ) 最 小 接触 物体 大 小 ) 
物体 大 小 识别 〈 成 像 方法 的 副产品 ， 可 以 从 多 个 有 利 位 | 性 能 常常 不 如 传统 红外 技术 好 (反应 更 慢 、 阶 梯形 轮廓 和 
置 捕捉 单个 物体 视图 ) 振动 更 频繁 等 ) 
比 传统 红外 技术 价格 高 很 多 (也许 由 于 暂时 的 “市 场 定 








价 ”) 





上 述 部 分 通过 例子 指出 了 整个 触 控 产业 存在 的 一 个 根本 问题 ， 即 市 场 宣传 过 多 且 缺 乏 足 
够 的 产品 规范 描述 。 


2.7.3 摄像 光学 触 控 技术 (编号 11) 


尽管 摄像 光学 触 控 仅 于 2009 年 随 着 Windows 7 的 发 布 才 问 世 ， 但 该 项 技术 已 经 存在 30 
余年 之 久 。1979 年 ，Sperry Rand 集团 首 度 定 义 了 使 用 两 个 红外 线性 图 像 传感器 【它们 那 时 
还 是 电荷 耦合 组 件 (CCD) ] 来 定位 显示 器 表面 的 触 磁 位 置 的 概念 ， 并 获得 了 该 项 技术 的 专 
利 。 加 拿 大 的 SMART Technologies 和 新 西 兰 的 NextWindow 在 2000 年 前 后 独立 开发 了 首 个 商 
业 用 途 的 基于 光学 Touch System 的 互补 金 属 氧 化 物 半 导体 (CMOS), +4Ela], SMART 将 该 
技术 应 用 于 一 部 分 自 有 产品 ， 但 直到 2010 年 ， 该 技术 一 直 没 有 广泛 使 用 。 
惠普 是 第 一 个 在 桌面 产品 中 使 用 光学 触 控 技 术 的 商家 ， 它 于 2007 年 发 布 了 TouchSmart™ 
一 体 化 电脑 附带 NextWindow 触 控 技术 。2009 年 4 H, SMART 状 告 NextWindow 侵犯 其 专利 ， 
并 于 2009 年 6 月 许可 Pixart 使 用 该 项 技术 。Pixart 很 快 开 始 向 Quanta 供应 光学 传感器 以 应 对 
2009 年 10 月 发 布 的 Windows 7, Quanta 成 为 了 NextWindow 的 主要 竞争 对 手 。SMART 在 次 年 4 





























64 ”实感 交互 ,人工 智能 下 的 人 机 交互 技术 


月 收购 了 NextWindow， 于 是 中 止 了 诉讼 并 缓解 了 Quanta 作为 竞争 对 手 的 经 济 冲击 。 融 合 两 家 
公司 的 光学 触 控 的 知识 产权 比 起 一 个 公司 的 专利 被 另 一 个 公司 贬值 (可 能 的 诉讼 结果 ) 要 明 
智 得 多 。 

摄像 光学 是 一 种 遮光 红外 触 控 (此 处 “摄像 ”是 指 包 括 图 像 传 感 器 、 透 镜 、 红 外 波光 
片 、 外 壳 以 及 数据 线 的 常规 装配 集合 ) 。 在 最 普通 的 摄像 光学 触 屏 形式 中 (DLP 2. 28a), BR 
幕 角 落 有 一 个 通过 红外 LED 提供 的 外 围 背光 源 ， 屏 幕 周边 有 一 个 反射 器 (反射 器 是 一 种 能 
把 光 从 其 射 人 的 方向 折射 回去 的 材料 ， 无 论 入 射 角 角 度 ) 。 由 于 反射 器 的 作用 ， 从 屏幕 边缘 
射出 的 光 穿 过 屏幕 表面 CMOS 线路 扫描 或 区 域 成 像 器 (相机) 被 安装 在 屏幕 的 两 个 或 更 多 
的 角落 ; 当 手 指 触 碰 屏 幕 时 ， 边 缘 光 受 遮 挡 ， 其 阴影 被 相机 捕捉 。 

要 注意 的 是 ， 尽 管 相机 使 用 的 是 区 域 成 像 器 而 不 是 单 像素 线路 扫描 成 像 器 ， 其 仍然 无 法 
看 见 触 磁 手 指 的 灰 度 图 像 ， 它 只 能 辨别 有 光 或 者 无 光 。 控 制 器 处 理 来 自 相机 的 数据 ， 并 用 三 
角 测 距 来 确定 触 碰 手指 的 位 置 [ 字 ] 。 
图 2. 28b 展示 了 通过 一 个 512 像素 光学 传感器 看 到 的 光 强 度 图 。 图 中 像素 为 358 的 急速 
下 降 是 手指 触 碰 屏幕 的 结果 ( 即 所 有 边缘 背光 都 被 遮挡 的 时 点 ) 。 在 250 像素 左右 的 缓慢 下 
降 是 屏幕 两 个 边缘 的 交点 ( 即 下边 和 右边 边缘 ， 从 左上 边 的 相机 角度 看 去 ) ; 这 是 距离 相机 
最 远 的 点 。270 像素 左右 的 高 峰 出 现在 反射 器 把 光 原 路 射 回 相机 的 时 候 。 
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图 2.28 摄像 光学 触 控 使 用 由 红外 LED 在 屏幕 的 角落 所 生成 的 背光 和 一 个 边缘 反射 器 。 
CMOS 行 扫描 传感器 〈 相 机 ) 被 安置 在 屏幕 的 两 个 或 多 个 角落 ; 当 一 个 阻挡 红外 光 的 物体 碰 触 屏 
幕 ， 边 缘 光 就 会 被 遮盖 ， 相 机 就 能 看 到 阴影 。 来 源 : 改编 自 NextWindow 
































2009 ~ 2012 年 应 用 在 桌面 产品 中 的 多 数 摄像 光学 触摸 屏 仅 有 两 个 CMOS 传感器 ， 这 主 
要 是 考虑 到 成 本 问题 。 使 用 三 角 测 距 需要 两 个 相机 ， 这 才能 计算 单个 触 点 的 X 和 YY 位 置 。 
如 果 两 个 同时 出 现 的 触 点 能 够 被 两 个 相机 捕 提 〈 即 每 个 相机 都 能 看 到 两 个 明显 的 阴影 ) ， 那 
么 就 可 能 会 出 现 四 个 触 点 一 一 两 个 真正 的 触 点 和 两 个 “ 重 影 ” 触 点 〈 指 在 位 置 上 关联 真正 
的 触 点 ) 。 这 是 在 自 电容 投射 电容 、 传 统 红外 和 单 点 触 控 表 面 声波 中 也 同样 存在 的 问题 一 一 
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所 有 只 能 通过 双 轴 获取 信息 的 触 控 系统 均 是 如 此 。 在 光学 触 控 中 区 分 真正 的 触 点 和 重 影 需要 
有 能 够 操纵 多 套 触 点 的 复杂 算法 。 

高 级 算法 还 在 男 一 种 情况 下 彰显 重要 性 一 一 当 同 时 出 现 的 双 触 点 无 法 被 相机 分 清 时 
( 即 一 个 触 点 被 另 一 个 遗 挡 ) 。 图 2. 29 展示 了 重 影 点 和 遮挡 的 情况 。 


























相机 





重 影 磁 触 : G1 和 G2 遮挡 : 来 自 T1 和 T2 的 单个 阴影 











图 2.29 在 有 两 个 相机 的 光学 触摸 屏 中 尝试 定位 双 触 点 时 ， 重 影 点 碰 触 (G1 和 
G2， 如 左 图 绿色 所 示 ) 和 遮挡 (一 个 触 碰 物 体 Tl 和 7T2 的 单个 阴影 ， 如 右 图 所 示 ) 的 
问题 无 法 解决 ， 因 为 没有 足够 的 位 置 来 源 数据 












































在 一 个 双 相 机 光学 触 控 系统 中 的 触摸 屏 控制 融 有 大 部 分 的 处 理 时 间 是 用 在 运行 算法 以 消 
除 重 影 点 和 弥补 遮光 。 实 际 上 ， 多 点 触 控 体 验 的 质量 在 双 相 机 光学 触 控 系统 中 是 取决 于 算法 
的 复杂 程度 ， 而 不 是 硬件 的 质量 。 因 此 ,一 些 大 型 的 (大 于 30in) 光学 触摸 屏 使 用 四 个 相 
机 来 提供 更 多 的 数据 来 源 。 四 相机 能 够 带 来 两 个 清晰 的 触 点 ， 除 了 一 种 特殊 情况 ， 即 当 两 个 
触 点 都 位 于 相机 间 的 一 条 对 角 线 上 时 ， 两 个 相机 看 到 的 是 被 遮挡 的 物体 。 

前 面 描述 了 由 红外 LED 在 屏幕 角落 生成 的 背光 被 反射 的 系统 。 这 被 称 作 “ 被 动 ”背光 
系统 ， 因 为 相机 感应 到 的 阴影 是 由 反射 光 生成 的 。 然 而 背光 也 可 “主动 "， 也 就 是 说 ， 它 可 
以 直接 发 射 光 。 构 建 主动 背光 主要 有 两 种 方法 。 一 种 常用 的 方法 是 把 大 量 的 红外 发 射 LED 
装置 在 触摸 屏 的 四 周边 缘 ， 这 些 可 以 直接 发 射 被 触 碰 物体 阻挡 的 光 。 这 种 方法 的 主要 优势 是 
更 高 强度 的 光 生 成 更 高 的 触 控 系统 信 噪 比 ， 从 而 增强 触 控 功 能 的 稳定 性 。 该 方法 的 主要 缺点 
是 元 件 的 增加 成 本 和 周围 的 印 制 电路 板 。 

在 第 二 种 方法 (由 于 知识 产权 的 问题 仅 由 Lumio 使 用 过 ) 中 ， 呈 管状 分 布 在 屏幕 周边 
的 光 导 重新 指引 了 红外 光 的 方向 ， 该 红外 光 由 位 于 每 个 波导 段 末 端的 LED 生成 ， 因 此 得 以 
分 散 至 屏幕 表面 。 该 方法 的 主要 优势 是 较 低 的 成 本 和 非常 低 的 横 截 面 高 度 (3 ~4mm 对 比 以 
往 的 6 ~ 10mm) ; 主要 的 劣势 则 是 其 较 低 的 光 强 度 和 单一 来 源 的 本 质 。 

2013 年 的 摄像 光学 触 控 应 用 主要 在 以 下 两 个 主要 领域 发 展 : 

1) 桌面 多 合 一 触 控 电 脑 和 触 控 显示 器 。 

2) 大 屏 交 互信 息 系统 、 数 码 广告 牌 、 会 议和 培训 室 ， 以 及 在 教育 应 用 中 使 用 大 型 交互 
LCD 替代 白板 书写 。 





















































66 ”实感 交互 ， 人 工 智能 下 的 人 机 交互 技术 


桌面 应 用 系统 的 发 展 主要 由 于 微软 的 Windows 7 Touch Logo 的 规范 是 基于 摄像 光学 编写 
的 ， 它 在 当时 是 成 本 最 低 的 可 支持 双 点 触 控 的 技术 。 而 Windows 8 Touch Logo 的 规范 则 是 围 
绕 投射 电容 编写 的 ， 具 有 最 低 五 个 同时 触 点 的 要 求 。NextWindow 已 经 能 够 通过 使 用 六 个 相 
机 来 满足 Windows 8 Touch Logo 的 规范 一 一 每 个 角落 各 一 个 ， 男 外 两 个 在 三 等 分 屏幕 的 顶 
边 。 日 前 ,没有 其 他 摄像 光学 供应 商 (除了 SMART Technologies， 即 NextWindow 的 母 公司 ， 
仅 在 出 售 完整 的 系统 而 不 是 触摸 屏 ) 声称 拥有 可 以 满足 Windows 8 Touch Logo 规范 的 产品 。 

由 于 投射 电容 式 在 桌面 尺寸 (15 ~30in) 的 成 本 较 高 ， 摄 像 光学 被 看 作 是 Windows 8 消费 
产品 的 理想 替代 品 。 但 是 PC OEM/ODM 总 体 上 更 青睐 多 元 资源 ， 这 样 直 到 有 除了 NextWindow 
之 外 的 供应 商 出 现 ， 否 则 让 摄像 光学 进入 Windows 8 桌面 产品 的 可 能 性 将 十 分 有 限 。 

摄像 光学 技术 在 大 屏 显 示 器 应 用 方面 的 主要 对 手 是 传统 红外 线 ; 其 他 的 竞争 者 还 包括 有 
线 投射 电容 、 表 面 声波 和 3M 出 品 的 色散 信和 号 技术 (后 两 项 技术 局 限 在 尺寸 约 为 52in 内 ) 。 
摄像 光学 比 起 传统 红外 的 主要 优势 是 其 可 延展 性 ， 这 有 助 于 它 用 在 更 大 触摸 屏 时 仍然 保持 较 
低 成 本 。 任 何 尺寸 的 传统 红外 触摸 屏 必 须要 在 屏幕 周边 布 满 印 制 电路 板 ， 但 是 摄像 光学 触摸 
屏 只 要 使 用 可 连接 到 塑料 或 金属 托 架 上 的 印 制 逆反 射 器 即 可 。 后 者 的 成 本 要 低 很 多 。 摄 像 光 
学 技术 的 另 一 个 优势 是 其 高 于 传统 红外 的 分 辨 率 和 速度 。 

在 大 画幅 应 用 中 ， 光 学 触 控 和 传统 红外 触 控 均 有 各 自 优 势 ， 因 此 两 者 丝 可 能 在 今后 数 年 
继续 出 现在 大 画幅 市 场 中 。 随 着 时 间 的 推移 ， 摄 像 光 学 技术 将 取代 传统 红外 ， 因 为 其 硬件 要 
更 简单 ， 而 更 多 的 性 能 可 通过 软件 增加 。 摄 像 光 学 触 控 技 术 的 优 缺 点 在 表 2. 13 中 做 了 总 结 。 

R213 摄像 光学 触 控 技术 的 优 缺 点 

























































































































































































TR JU 
MEE (相机 模 组 投射 在 接触 表面 )， 随 屏幕 扩大 击 
eee eer ee MACHR I), WOR RE KT 
im EOE PEMA (CMe! Bi (在 实际 接触 到 屏幕 表面 时 触 控 已 经 激活 ) ， 但 没 
笔 有 传统 红外 严重 
多 点 触 控 GHW ~5 个 触 点 ， 但 使 用 20 个 相机 已 经 可 | 需要 相对 高 的 基板 平坦 度 (如 +2mm) ， 特 别 当 反射 器 作 
达 40 个 触 点 ) 为 背光 源 时 
相对 高 的 分 辩 率 和 准确 度 7 LEO (AM. RA LR 
物体 天 小 识别 (从 多 个 有 利 位 置 捕捉 每 个 接触 物体 的 图 | 多 点 般 控 性 能 由 于 较 少 的 数据 来 源 客观 低 于 投射 电容 ， 带 
像 的 结果 双 相机 的 两 点 触 控 性 能 非常 低 
再 于 平面 或 斑 基 板 而 具有 高 匹 学 性 能 屏幕 各 处 的 准确 性 不 统 ， 特 出 在 仅 有 双 入 宙 的 时 候 
最 小 接触 物体 尺寸 取决 于 屏幕 尺寸 ， 针 对 大 屏 可 以 增 
比 传统 或 多 点 触 控 红外 技术 成 本 低 Pei Pee een ee 
ART 对 环境 红外 比 对 传统 红外 更 敏 感 《缺乏 解决 方案 ) 
屏幕 相 邻 放置 会 相互 影响 ， 肌 于 红外 光 可 以 被 互相 探测 到 








2.7.3.1 光电 二 极 管 光学 技术 

光电 二 极 管 光 学 技术 是 摄像 光学 技术 的 一 个 分 文 ， 由 于 知识 产权 的 考虑 ， 目 前 仪 在 
Baanto 公司 可 以 找到 。 该 光学 触 控 技术 使 用 光电 二 极 管 (p-i-n 半导体 结构 的 二 极 管 ) 作 
为 兴 传 感 器 ， 而 不 是 前 面 描述 的 CMOS 相机 。 光 电 二 极 管 具有 以 下 可 以 简化 光学 触摸 屏 结构 


的 特征 [3]， 

。 光电 二 极 管 直 接 读 取 光 强度 并 在 高 达 10000 帧 /s 的 速度 下 运行 ， 支 持 了 高 性 能 的 触 
碰 系 统 。 

。 光电 二 极 管 无 需 透镜 ， 而 且 可 装配 接近 180° 的 视 场 (FOV) ( 见 图 2.30)， 因 此 可 以 
无 需 依靠 装置 在 触摸 屏 角 落 的 传感器 并 消除 需要 电脑 计算 纠正 的 光学 像 差 。 


90° FOV 传感器 ~170° FOV 传感器 90° FOV 传感器 


a 阴影 


红外 光束 


触 碰 目标 
活动 区 域 
(黄色 ) 


ee ; 
红外 发 射 器 红外 发 射 器 








玻璃 、 塑 料 或 无 基板 印 制 电 路 板 
图 2. 30 ”光电 二 极 管 光 学 触摸 屏 的 一 个 例子 ， 该 技术 在 角落 使 用 了 两 个 90° 的 视 场 传感器 ， 并 在 项 边 
使 用 两 个 170° 的 视 场 传感器 。 触 摸 屏 另外 的 三 边 含 有 红外 LED 。 光 束 被 吸引 集中 ， 以 显示 一 个 传感器 能 观 
察 到 两 个 接触 物体 (取决 于 该 物体 的 大 小 ) 的 阴影 和 边缘 光 。 来 源 : 改编 自 Baanto 公司 







































































。 光电 二 极 管 无 需 上 曝光 控制 ， 因 为 传 感 带 性 能 不 会 因为 接触 物体 的 距离 或 速度 而 受到 
光照 变化 影响 。 

。 光电 二 极 管 的 场 深 无 限 ， 意 味 着 位 置 探测 算法 不 会 随 着 接触 物体 的 位 移 而 发 生 改变 。 

光电 二 极 管 完全 在 模拟 领域 运行 ， ee 它 更 能 让 触摸屏 
控制 器 以 不 同 的 方式 使 用 接触 物体 的 阴影 信息 ( Baanto 的 技术 被 称 为 “阴影 感知 ” ) 。 它 包 
含 的 一 些 在 其 他 种 类 的 摄像 光学 触摸 屏 中 不 多 见 的 性 能 包括 以 下 方面 :5 : 

。 可 选择 的 接触 面积 (提供 防 误 触 ， 忽 略 雨滴 到 屏 莫 上， 或 设置 要 求 的 最 小 手指 接触 
压力 )。 

。 可 选择 的 “ 驻 留 时 间 ”( 在 报告 有 效 触 磁 之前， 一 个 触 碰 物 体 必须 停留 在 屏幕 的 最 
少 帧 值 ， 这 能 实现 排除 短暂 的 意外 触 碰 ) 。 
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。 可 选择 的 阴影 密度 (使 接触 物体 的 红外 穿 透 性 成 为 判断 有 效 碰 触 的 标准 ) 。 

e 更 好 地 排除 高 度 的 环境 红外 干扰 ( 达 100k Ix) 

e 更 容易 上 调 尺 寸 (Baanto 至 今 的 最 大 触摸 屏 是 在 一 面 266in 的 视频 墙 上 ) 。 

Baanto 的 光电 二 极 管 光 学 触摸 屏 的 背光 是 主动 的 ， 它 使 用 了 940nm 的 红外 LED, ， 相 互 
间隔 5mm 并 环绕 在 触摸 屏 的 边缘 。 触 摸 屏 使 用 完全 照明 、 部 分 遮挡 、 完 全 遮挡 的 触摸 事件 
之 间 的 比例 使 屏幕 能 够 耐 受 周边 变化 的 LED 功率 值 ， 从 而 无 需 使 用 分 档 的 (匹配 的 ) LED, 
另外 ， 因 为 控制 器 算法 使 用 读数 之 间 的 比例 ， 传 感 器 接收 到 的 总 功率 变化 不 会 影响 对 触 碰 位 
置 的 计算 。 


2.7.4 玻璃 光学 触 控 技术 〈 平 面 散射 检测 ) (编号 12) 


平面 散射 检测 (PSD) 是 一 种 玻璃 光学 触 控 的 特别 形态 。 该 技术 由 一 家 2007 年 初期 创 
立 的 瑞典 公司 FlatFrog 发 明 ， 于 2012 年 5 月 首 度 发 布 了 该 产品 。FlatFrog 的 触 控 技术 被 称 为 
“光学 波导 分 析 ”。 所 谓 “ 波 导 ” 是 一 块 接触 基板 ， 可 以 是 任何 一 种 尺寸 稳定 的 透明 材料 ， 
且 无 硬度 和 平坦 度 的 要 求 ， 这 种 特性 在 光学 触 控 系统 中 十 分 少见 。FlatFrog 系统 的 基本 工作 
原理 如 图 2. 31 所 示 。 在 一 个 PSD 触 碰 传 感 器 中 ， 光 由 多 个 红外 LED 射 人 光学 基板 边缘 并 由 
全 内 反射 (TIR) 限制 在 基板 以 内 。 由 于 受 抑 全 内 反射 (FTIR ) ， 触 碰 分 散 了 一 部 分 光 ; 多 
个 与 基板 边缘 的 LED 交错 的 红外 光 检 测 器 探测 到 剩余 的 (减弱 的 强度 ) TIR 光 。 复 杂 的 算 
法 经 过 分 析 光 射线 强度 和 进行 1D 到 2D 的 重 构 ， 即 可 决定 表面 所 有 物体 的 位 置 [5] 。 
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图 2.31 该 图 是 一 个 解析 平面 散射 检测 (PSD) 的 原理 图 。 红 外 光 被 射 人 基板 (波导 ); 
随后 由 于 TIR 保留 限定 在 基板 内 。 由 于 FITR 使 触 碰 分 散 了 一 部 分 光 ; 强度 变 弱 的 光 持 续 存 
在 ， 直 到 基板 对 面 边缘 的 光 检测 器 检测 到 。 经 过 分 析 全 部 光 射 线 的 强度 ， 使 用 复杂 的 算法 即 
可 计算 出 碰 触 位 置 。 来 源 ， 改编 自 FlatFrog 



















































































PSD 不 同 于 标准 FTIR 的 一 个 方面 是 FTIR 光 在 基板 内 得 到 分 析 而 无 需 像 视觉 触 控 需 要 其 
离开 基板 。 另 一 个 不 同 是 一 次 触 碰 仅 消 耗 给 定 光 射线 的 一 小 部 分 ， 这 样 多 触 点 可 以 在 直 光 下 
被 检测 到 ， 剩 余 足够 的 光 仍 然 可 以 在 边缘 被 感知 。 和 传统 红外 光一 样 ，PSD 要 求 基板 四 边 都 
要 装置 电路 板 ， 但 是 红外 发 射 器 和 接收 需 的 数量 比 传统 红外 和 触摸屏 的 要 求 要 少 些 (7 ~ 8mm 
的 元 件 间 隔 距 离 相 较 于 以 往 的 5mm)。 不 同 于 传统 红外 光 ，PSD 触摸屏 有 完全 齐 平 的 包 边 ， 
因为 显示 器 屏幕 上 没有 任何 投射 。 

唯一 一 个 2013 年 发 布 的 PSD 产品 是 一 个 由 FlatFrog 组 装 的 32in LCD 和 触 控 显示 器 。 换 句 



































话说 ， 目 前 该 触 控 技术 并 未 作为 组 件 提 供 。 但 是 Intel Capital 已 经 注资 FlatFrog， 并 与 Flat- 
Frog 直接 合作 将 该 技术 市 场 化 。 有 可 能 到 2014 ERT, PSD 触 控 技术 将 成 为 多 合 一 电脑 (如 
23in) 显示 带 的 组 件 之 一 。FlatFrog 预计 在 大 规模 电子 消费 产品 中 使 用 许可 证 商业 模式 ， 并 
在 小 规模 大 型 商业 屏幕 中 使 用 产品 销售 商业 模式 。PSD 可 能 成 为 传统 红外 和 摄像 光学 大 画幅 
技术 的 强劲 对 手 ， 甚 至 对 笔记 本 电脑 大 小 以 上 的 投射 电容 技术 构成 威胁 。PSD 触 控 技 术 的 优 
缺点 见 表 2. 14。 














表 2. 14 玻璃 光学 (PSD) 触 控 技 术 的 优 缺 点 










































































优点 缺点 

十 分 稳健 的 多 点 触 控 (32in 屏幕 上 40 多 个 触 点 ， 所 有 触 | 红外 发 射 器 和 接收 器 需要 周边 布置 印 制 电路 板 (9mm 
控 技 术 中 与 投射 电容 的 用 户 体验 最 为 接近 ) 宽 ) ， 每 12 对 组 件 还 需要 一 个 ASIC 驱动 器 

Perry SOc Sete neers aoe 由 于 缺乏 悬浮 不 能 满足 Windows 数字 笔 界面 的 规范 ， 不 适 

边 到 边 (无 边框 ) 或 含 边框 (类 似 投 射电 容 ) 合 触 控 笔 应 用 

实际 大 小 范围 在 14 ~84in 之 间 ( 优 于 投射 电容 ) 软 物体 意外 触 碰 可 能 导致 FTIR 

高 分 辨 率 (400dpi) 和 准确 度 ， 满 足 Windows 8 的 需求 | 对 外 部 红外 光敏 感 (未 来 可 改进 ) ;由 于 FTIR 改变 ， 触 控 
(等 同 于 投射 电容 ) 表面 的 尘土 或 烟雾 会 影响 性 能 

平面 玻璃 或 塑料 基板 产生 高 光学 性 能 〈 优 于 投射 电容 ) 新 兴 触 控 技 术 ; 价格 竞争 优势 和 产品 规模 有 待 证 实 























截至 2013 年 ， 直 接 代替 投射 电容 需要 在 玻璃 盖 片 和 LCD 
之 间 留 出 更 多 空间 (3mm) 且 不 能 直接 键 合 ， 直 接 键 合 需要 
PCB 部 件 安装 在 LCD 边框 之 外 ， 这 增加 了 屏幕 边框 宽度 





很 轻 的 触 碰 (类似 投 射电 容 ); 随 着 压力 增加 ,手指 的 
光学 性 质 发 生 改 变 ， 导 致 10bit FR ABCA PAE 









































可 用 和 手指、 手套、 被 动 软 尖 触 控 笔 ( 任何 能 导致 FTIR 
的 软 物体 ) 

对 电磁 干扰 /射频 干扰 不 敏感 ( 优 于 投射 电容 ) 

成 本 低 于 桌面 尺寸 投射 电容 ; 只 有 ASIC 驱动 器 和 固件 / 
软件 是 独特 组 件 










































































2.7.5 视觉 光学 触 控 技术 (编号 13) 


此 处 视觉 光学 触 控 技术 是 指使 用 “电脑 视觉 ”检测 和 处 理 接触 平面 所 发 生 的 触 控 。 虽 
然 同 样 的 术语 也 用 于 (可 能 更 经 常 ) 描述 经 过 2D 或 3D 摄像头 检测 并 处 理 的 手势 命令 ,但 
是 因为 后 者 并 不 包括 接触 显示 器 ， 本 章 对 此 技术 不 作 讨 论 。“ 电脑 视觉 ”也 暗 指 大 量 使 用 图 
像 分 析 软 件 以 判断 碰 触 位 置 和 其 他 接触 屏幕 表面 的 信息 。 

2.7.5.1 投影 

产生 视觉 触 控 的 方法 目前 有 三 种 : 

1) 投影 。 

2) LCD 后 方 的 多 个 广角 相机 。 

3) AG. 

视觉 触 控 使 用 的 投影 方法 通常 是 背面 投影 ， 即 在 投影 仪 旁边 安装 相机 (ULAR 2.32)。 受 
抑 全 内 反射 (FTIR) ( 见 图 2.32) 是 最 常用 的 产生 由 触摸 投影 表面 导致 的 红外 光 “ 光 团 ” 
(明亮 发 光 物 体 ) 的 方法 156] 。2007 年 发 布 的 Microsoft Surface 1. 0 (以 及 随后 四 年 出 现 的 许 
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多 相似 的 “ 触 控 果 ”) 是 背面 投影 视觉 触 控 的 最 佳 范 例 。 该 方法 的 主要 优势 是 系统 可 以 以 非 
常 低 的 成 本 组 装 [?] ; 主要 劣势 是 背面 投影 系统 的 实际 大 小 ， 以 及 由 于 背面 投影 导致 的 相对 
较 低 的 图 像 质量 。 













全 内 反射 (TIR) 


亚克力 板 






I 1 
受 抑 的 全 内 反射 FTIR) 
引起 的 散射 光 


投影 仪 
摄像 机 


至 2.32 最 常用 的 产生 视觉 触 控 的 方法 是 使 用 背面 投影 ， 这 需要 在 投影 仪 旁边 安装 相机 。FTIR 
最 常用 来 产生 由 触摸 投影 表面 导致 的 光 。 来 源 : 改编 自 Perceptive Pixel 





挡 板 ”扩散 器 





















































除了 投影 视觉 触 控 法 能 生成 红外 光 团 以 外 ， 还 有 其 他 三 种 方法 : 

1) 扩散 照明 (DI). 

2) 激光 平面 (LLP) 。 

3) 扩散 表面 照明 (DSE, 

扩散 照明 指 在 触 碰 表 面 的 背面 均匀 散布 红外 光 。 这 通常 依靠 与 屏幕 间隔 一 定 距 离 安 装 的 
一 个 或 多 个 红外 发 射 器 实现 。Microsoft Surface 1. 0 就 使 用 了 这 个 方法 。 激 光平 面 指使 用 激光 
在 触摸 屏 上 方 生 成 一 层 很 薄 的 (lmm) 红外 光平 面 ， 当 手指 打破 这 个 平面 时 ， 红 外 光 团 即 
产生 。 通 常 ， 在 屏幕 各 角 上 会 装置 两 个 或 四 个 激光 发 射 器 ; 每 个 发 射 器 上 装 有 一 个 呈 120° 
角 的 线路 滤波 器 以 扩散 光束 。 扩 散 表 面 照明 指使 用 一 种 特殊 的 丙烯 酸 纤维 在 表面 均匀 分 散 红 
外 光 。 丙 烯 酸 纤 维 含有 小 反射 颗粒 ; 当红 外 LED 光 射 人 纤维 边缘 时 ， 这 些 颗 粒 把 光 反 射 分 
散 到 纤维 表面 。 该 效果 与 扩散 照明 相似 ， 但 有 着 更 强 的 均匀 性 。 

2.7.5.2 集成 相机 

当前 唯一 一 款 集 成 多 广角 相机 的 LCD 的 视觉 触 控 产品 是 来 自 芬兰 MultiTouch 公司 的 
MultiTaction™ ( 见 图 2.33) 。 在 该 款 触 控 显 示 产 品 中 ， 相 机 被 集成 到 LCD 的 背光 中 。 这 种 
方法 的 主要 优势 是 相 比 投影 的 屏幕 更 薄 (8in) 以 及 性 能 更 高 。 主 要 的 劣势 是 成 本 、 复 杂 性 





























和 厚度 。MultiTaction 产品 的 一 些 更 有 价值 的 性 能 如 下 [51 : 
e 不 受 外 界 光 环境 的 影响 (通过 识别 环境 光 和 骨 入 在 背光 中 的 红外 反射 器 发 出 的 光 ) 。 
© 不 受 限 的 触 点 数 和 用 户 数 (触摸 屏 软件 同样 识别 手 ， 而 不 仅仅 是 触 点 )。 
。 运用 2D 标记 和 /或 总 体形 状 识别 来 辨认 物体 。 
。 用 红外 发 射 触 控 笔 工作 (清晰 区 分 手指 和 触 控 笔 ) 。 
。 模块 化 的 触摸 屏 显 示 可 以 形成 多 用 户 交 互 墙 。 























带 嵌 入 式 红 外 发 射 器 和 
馈 框 染 相机 的 背光 源 冷却 背 板 





通过 屏 RRE 矩阵 跟 多 格式 跟 可 扩展 混合 
幕 的 计 光 相机 踪 系 统 踪 给 出 图 跟踪 引擎 
算 机 视觉 





图 2.33 来 自 芬 兰 MultiTouch 公司 的 MultiTaction 视觉 触 控 系统 把 红外 发 射 器 和 红外 相机 融 
和 人 了 标准 LCD 背光 中 ， 并 由 艇 入 的 处 理 器 运行 复杂 的 物体 追踪 软件 来 支持 该 系统 。 来 源 : 改编 
自 MultiTouch 





























2.7.5.3 PRASCA BRIE RRA 

HRA SR PTE AC TE BE AY “RASC RS OR” MEITE AN AS RIT, ze 
于 Microsoft Surface 2.0 中 的 三 星 SUR4O 触摸 屏 是 目前 唯一 一 个 使 用 从 入 式 内 散光 感 技术 来 
实现 视觉 触 控 的 市 场 化 产品 (Surface 2.0 在 2011 年 发 布 ， 并 在 2012 年 由 Microsoft Pix- 
elSense 重新 命名 ， 为 了 使 其 名 “Surface” 可 以 在 平板 电脑 市 场 使 用 ) 。 般 入 式 内 舱 光 感 技术 
的 主要 优点 是 触 控 完全 与 显示 器 实现 一 体 化 而 无 需 增 加 任何 厚度 。 该 技术 (在 SUR40 中 实 
H) 的 最 大 缺点 在 于 对 环境 红外 的 极端 敏感 性 (以 至 于 SUR40 无 法 使 用 在 大 多 数 光亮 的 环 
境 中 !%1 ) ， 以 及 由 于 需要 更 长 时 间 处 理 能 入 式 光 传感器 的 数据 而 导致 触摸 延迟 性 。 

2.7.5.4 视觉 触 控 技术 小 结 

视觉 触 控 的 应 用 主要 可 以 分 成 两 类 

1) 由 于 多 触 点 的 高 性 能 和 自制 的 低 成 本 ,许多 高 校 建 立 了 人 研究 触 控 技术 的 公用 


六 人 人 [57] 
HO o 
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2) 一 个 传统 商业 应 用 的 新 平台 ， 如 零售 店内 的 多 样 化 触 控 昌 产品 和 公共 场所 的 交互 视 
频 墙 。 

虽然 视觉 触 控 技术 的 发 展 仍 处 于 萌芽 期 但 是 至 少 可 以 说 它 已 经 是 一 项 拥有 专营 市 场 的 
技术 ， 因 为 它 并 不 直接 与 其 他 触 控 技 术 竞争 。 技 术 的 “视觉 ”特征 使 其 可 以 完成 其 他 触 控 
技术 无 法 实现 的 任务 。 一 个 简单 的 例子 是 通过 使 用 赋予 物体 的 图 形 记号 来 识别 物体 [91 。 举 
例 来 说 ， 它 可 以 使 带 有 记号 的 数码 相机 或 智能 手机 放置 在 触摸 屏 上 ， 应 用 软件 自动 通过 蓝牙 
把 设备 中 的 图 片 下 载 下 来 并 显示 在 屏幕 上 供 编辑 或 排列 一 一 无 须 用 户 发 出 任何 指令 。 视 觉 触 
挖 技术 的 优 缺点 详 见 表 2. 15, 























表 2.15 视觉 触 控 技 术 的 优 缺 点 


















































优点 缺点 

用 于 图 像 处 理 软件 分 析 的 理想 数据 来 源 无 法 作为 元 件 获取 ， 仅 为 大 型 显示 器 的 一 个 系统 存在 
通过 使 用 图 形 记号 进行 物体 识别 (不仅 是 大 小 或 形状 识 | 由 于 缺乏 悬浮 无 法 达到 Windows 数码 笔 界面 规范 要 求 ， 不 
别 ) 太 适 用 于 触 控 笔 应 用 

多 触 点 十 分 稳健 投影 方法 需要 不 少 空间 ， 且 光学 性 能 低 

非常 轻微 的 触 碰 集成 相机 法 的 成 本 、 复 杂 性 和 相对 厚度 














可 使 用 手指 、 手 套 或 被 动 软 头 触 控 笔 (投影 法 ); 可 使 
发 光 触 控 笔 ( 内置 相 机 和 组 入 式 方法 ) 

自制 成 本 低 (投影 法 ) 作为 新 兴 触 控 技术 ,已 有 的 应 用 数量 有 限 
通过 多 个 集成 相机 和 强大 的 嵌入 式 图 像 处 理 能 力 而 实现 
的 复杂 功能 ( MultiTaction) 

HRA Sv AEE (SUR40) 的 标准 优势 





和 能 入 式 方法 对 环境 红外 光敏 感 












































2.8 庶 入 式 触 控 技 术 


如 “投射 电容 式 触 控 传 感 希 ”部 分 所 述 ， 术 语 “ 肯 入 式 ” 指 的 是 由 显示 咒 制 造 商 集成 
在 显示 咒 中 的 触 控 功 能 ， 而 “分 离 式 ” 则 意味 着 触 控 功能 是 独立 于 显示 融 之 外 制造 的 。 谁 
提供 了 触 控 功能 实际 上 是 决定 能 入 式 触 摸 屏 的 根本 因素 ， 而 并 非 是 技术 本 身 的 细节 。 在 决定 
一 个 OEMZODM 设备 是 衣 和 人 式 还 是 分 离 式 的 触摸 屏 产 品 时 ， 商 业 问题 往往 比 技术 问题 更 为 
重要 。 比 如 对 于 智能 手机 ， 一 个 戏 入 式 触 摸 屏 和 一 个 分 离 式 0GS 〈 单 片 触 控 面板 ) 触摸 屏 
的 技术 差别 实际 并 不 大 ， 详 见 如 下 所 述 [ 1 : 

。 投入 式 触 控 智能 手机 显示 屏 通 常 比分 离 式 的 同 球 显示 屏 注 100 ~ 1504m, H FEE 
入 式 触 控 的 智能 手机 模型 的 厚度 变化 约 1. 0mm，100 ~ 150pm 的 差别 对 大 多 数 用 户 来 说 并 不 
显著 。 

© 梭 入 式 和 分 离 式 触 控 性 能 大 致 相同。 一 些 显 示 带 制造 商 仍 在 迎头 赶 上 , 但 长 久 来 看 
这 些 性 能 是 趋同 的 。 

© 梭 入 式 和 分 离 式 触 控 的 重量 相同 ， 因 为 两 者 都 使 用 三 块 玻璃 板 (屏幕 两 块 ， 还 有 一 
块 玻璃 盖 板 ) o 

© 舱 入 式 和 分 离 式 触 控 的 功 耗 大 致 相同 。 随 着 时 间 的 推移 ， 带 有 髋 入 式 触 控 的 更 高 效 









































































































































的 集成 应 该 能 使 其 功 耗 更 低 。 

e 般 入 式 和 分 离 式 触 控 的 成 本 惊人 的 相似 。 因 为 舱 入 式 触 控 可 以 实现 更 高 效 的 集成 ， 
目前 在 智能 手机 控制 器 和 排 线 上 可 能 节省 2 ~4 美元 。 随 着 能 入 式 触 探 拓展 到 平板 电脑 大 小 
的 显示 器 中 ， 分 离 式 触 控 由 于 蔡 换 了 ITO 成 本 实际 上 更 低 ， 取 代 的 材料 可 以 是 金属 网 。 

。 屏 外 触 点 图 标 ( 比如 安 卓 智能 手机 里 的 “菜单 ”图 标 ) 可 以 用 分 离 式 触 控 轻 易 创 
建 ， 因 为 保护 玻璃 层 总 是 比 实际 显示 区 域 要 大 。 但 是 般 入 式 触 控 必 须 使 用 额外 的 部 件 (如 
虚拟 按键 ) 来 获得 屏 外 触 点 图 标 。 

能 入 式 触 控 技 术 发 展 了 至 少 10 年 之 入。 触 控 新 方法 仍 在 不 断 探 索 ， 并 不 断 地 并 和 LCD 
的 组 成 部 分 ， 影 响 着 LCD 的 设计 与 应 用 '$]。 主 要 的 触 控 方 法 如 下 : 

e GEER?” (AP “EMER, 首次 由 三 星 批 量 生 产 ) 的 原理 是 指 压 产 生 的 屏幕 
压力 导致 液晶 的 介质 常数 发 生 改 变 。 变 化 的 介质 常数 改变 了 增加 到 部 分 或 全 部 像素 中 的 电极 
对 之 间 的 电容 [%,55] 。 

。“ 光 感 "， 首 次 由 夏普 批量 生产 ， 指 红外 光 检 测 右 被 并 入 部 分 或 全 部 像素 中 。 光 检测 
器 既 可 以 在 强 环境 光 下 读 取 和 触 碰 物 体 的 阴影 ， 也 可 以 在 弱 环境 光 或 黑暗 中 读 取 触 碰 物 体 的 折 
射 背光 [5]。 

。“ 电 压 传 感 ”( 又 称 “数字 转换 *"”， 由 三 星 首 创 )， 指 X 和 YY 位 置 的 微 动 开 关 被 并 入 
部 分 或 全 部 的 像素 中 。 屏 幕 上 受到 的 压力 关闭 了 微 动 开关 ， 从 而 定位 了 压力 源 !@] 。 

这 些 方法 中 没有 哪个 是 完美 的 ， 虽然 三 星 确 实 推 出 了 数 百 万 个 使 用 指 压 电容 的 傻瓜 数码 
相机 。 它 们 未 能 获取 完全 成 功 的 主要 原因 如 下 : 

1) 信 噪 比 不 足 ， 无 法 实现 稳定 操作 。 

2) 要 求 屏幕 表面 实际 上 发 生 弯 曲 (这 样 消除 了 使 用 玻璃 保护 层 的 可 能 性 ， 因 此 增加 了 
屏幕 的 易 损坏 性 ) 。 

3) 把 屏幕 尽 可 能 的 压 近 框架 是 不 可 靠 的 ， 因 为 彩色 滤 光 片 几乎 无 法 移动 。 

随 着 投射 电容 的 互 电容 广泛 用 于 智能 手机 分 离 式 触 控 技术 中 ， 显示 融 行业 愈 发 意识 到 把 
投射 电容 集成 到 显示 器 中 应 用 是 一 个 正确 的 决定 ， 而 不 是 无 谓 的 进行 重复 劳动 。 表 2. 16 总 
Si TSAR BAT HL AE A HA SA TIE 

表 2. 16 Sk, AMIR GRA RAERAU Rw HAA SENASREAY mHAa 
方法 定义 首次 发 布 
Coil | 触 控 传感器 是 在 LCD Hee ere OLED 的 封装 玻璃 上 表 =E, 2010 年 OLED 智能 手机 
面 的 ITO 电极 阵列 ; 功能 同 标准 投射 电容 一 样 
触 控 传感器 由 ITO 电极 阵列 组 成 ， 其 中 感应 电极 层 在 彩色 滤 
IG AM 光 片 上 面 (OME), ， 驱 动 电 极 在 LCD 面板 内 。 驱 动 电极 可 在 | RE, 2012 年 索尼 和 HTC A 
(in -cell/on cell) TFT 玻璃 上 (在 IPS ( 共 面 转换 ) 的 LCD 内 ) 或 在 彩色 滤 光 片 | 能 手机 
的 底面 (在 非 IPS 的 LCD 内 ) 
触 控 传 感 器 位 于 LCD 显示 面板 内 部 (夹层 在 TFT 和 彩色 滤 光 | R, 2012 年 iPhone 5 ( 电 
AK (in -cell) | 片 之 间 ) 。 传 感 器 可 以 是 ITO 电极 阵列 ( 互 电容 式 ) 或 光 感 | 容 ) ;夏普 ，2009 年 上 网 本 ( 光 
元 素 感 ) 
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从 出 货 量 看 ,在 2010 年 2 月 ,三 星 公司 是 第 一 个 大 批量 在 消费 市 场 发 布 面板 上 外 衣 式 
触 控 的 生产 商 ， 并 将 其 应 用 于 S8500 Super AMOLDEDTY 智 能 手机 (“Super AMOLED” 是 三 
星 自 有 的 主动 矩阵 OLED 的 品牌 冠 名 ， 该 产品 应 用 了 外 让 式 触 控 技术 ) 。2012 年 5 月 ， 索 尼 
成 为 首 个 发 布 混合 内 外 骸 式 触 控 技术 的 公司 ，XperiaP™M 和 HTC EVO Design 4G™ 智 能 手机 均 
使 用 了 该 项 技术 ;Synaptics 为 这 些 产 品 开 发 了 触摸 控制 器 i!%]。2012 年 9 A, FRA AK 
在 iPhone 5 FEH T ARRAL, MEH (专利 ) 的 角度 说 ， 是 应 该 把 所 有 形式 的 电容 敬 
入 式 触 控 的 发 明 归 功 于 一 家 公司 (如 苹果 ) ， 还 是 应 该 把 每 种 类 型 的 电容 舰 入 式 触 控 分 别 归 
功 于 某 个 公司 一 一 这 还 有 待 观察 。 

2013 年 ， 般 入 式 触 控 主 要 应 用 于 智能 手机 (小 ) 屏幕 ， 原 因 是 该 技术 在 较 大 屏幕 中 的 
应 用 仍然 在 开发 中 。 到 2015 年 以 前 ， 该 技术 有 望 升级 到 笔记 本 电脑 大 小 的 (15in) Aba ait 
中 。 升 级 面临 的 主要 问题 如 下 : 

。 更 大 的 屏幕 具有 更 多 的 电极 ， 因 为 感应 电极 和 驱动 电极 的 数量 是 实际 屏幕 尺寸 的 一 
个 函数 ， 而 不 是 屏幕 的 像素 分 辨 率 。 电 极 也 会 更 长 。 这 两 个 因素 增加 了 完成 完整 触摸 屏 扫描 
所 需 的 时 间 。 

。 更 大 的 屏幕 往往 有 更 高 的 像素 分 辨 率 ， 这 缩短 了 显示 屏 电 子 环境 的 安静 时 间 。 髋 入 
式 触 控 感应 通常 需要 在 这 些 安静 的 时 间 内 完成 〈 实 际 上 ， 为 了 优化 时 间 ， 和 触摸 控制 锅 和 显 
示 控 制 器 经 常 协同 运行 ) 。 

这 两 个 问题 结合 起 来 一 一 每 次 扫描 需要 更 多 时 间 ， 而 用 于 扫描 的 时 间 变 得 更 少 一 一 直 妨 
但 着 般 入 式 触 控 升 级 到 7in 以 上 的 批量 产品 中 ， 实 验 室内 使 用 的 限制 是 12in。 


2.8.1 SREB (HW 14) 


St ALS AE ES Lic HT RY Ha A RATE, RITE ASS RUSE IF REAR AY 
基板 上 或 在 保护 玻璃 下 ， 而 是 安装 在 LCD 彩色 滤 光 片 或 OLED 密封 玻璃 上 方 ( 见 “ 投 射电 
容 式 触 控 传感器 ”部 分 的 图 2. 11) 。 各 层 共 加 的 功能 本 质 上 与 分 离 式 投射 电容 是 相同 的 。 外 
艇 式 最 普遍 电极 阵列 分 布 是 连锁 葵 形 ， 因 为 它 能 与 金属 连接 线 安装 在 一 个 阵列 基板 上 。 

如 前 所 述 ， 首 个 批量 生产 的 内 购 式 触 控 产 品 是 一 台 OLED 智能 手机 。 外 内 式 触 控 用 于 
OLED 其 实 比 用 于 LCD 更 简单 (产量 也 更 高 )， 因 为 OLED 封装 玻璃 下 并 没有 任何 装置 。 而 
LCD 的 彩色 滤 光 片 下 至 少 有 彩色 过 滤 材 料 ， 如 果 是 非 共 面 转 换 (IPS) 的 LCD， 其 上 面 也 会 
有 普通 电压 (Vcom) 电极 (由 ITO 形成 )。 对 一 个 显示 屏 生 产 商 来 说 ， 问 题 就 变 成 了 要 先 
制造 哪 一 边 。 如 果 先 制造 触 控 面板 ， 高 温 数 烧 就 可 以 使 用 ， 从 而 可 以 改进 ITO 的 质量 ， 提 高 
触摸 屏 的 性 能 。 但 是 玻璃 层 在 密封 LCD 面板 之 后 就 无 法 保持 平时 的 薄 度 了 ， 可 能 使 显示 器 
增 厚 约 0. 3mm。 如 果 先 制造 彩色 滤 光 片 ， 那 么 玻璃 层 可 以 变 薄 ， 但 是 触摸 屏 无 法 高 温 焊 烧 
( 若 这 样 做 就 会 损坏 彩色 过 滤 材 料 )， 导 致 触摸 屏 性 能 更 低 '!]。 制 造 商 通常 选择 后 者 ， 因 为 
不 会 干扰 LCD 制造 环节 的 生产 ,而 且 薄 度 总 是 被 视 为 一 个 极其 重要 的 因素 。 


2. 8.2 混合 互 电 容 式 (编号 15) 
顾名思义 ,混合 召 入 式 触 控 是 指 触 控 面 板 一 半 柑 入 LCD， 一 半 在 LCD 外 。 感 应 电极 存 
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储 在 LCD 彩色 滤 光 片上 (外挂 ) 。 有 些 IPS 显示 屏 在 彩色 滤 光 片上 有 用 均匀 ITO 涂 层 制 成 的 
抗 项 电 隔 离 层 ;如 存在 ， 则 该 层 以 长 条 形 电极 平行 排列 而 成 。 该 层 仍 起 屏蔽 层 作 用 ， 因 为 除 
了 其 中 一 个 条 形 电极 会 随时 感应 之 外 ， 其 他 均 接 地 。 这 种 防 静电 屏蔽 的 方法 正 逐 渐 被 位 于 显 
示 屏 顶部 偏光 器 内 的 导电 层 所 取代 。 该 情况 下 ， 感 应 电极 就 作为 新 的 一 层 被 置 于 彩色 滤 光 
片上 。 

驱动 电极 是 通过 分 组 和 改变 LCD 的 Vcom 电极 用 途 而 产生 的 ， 是 触摸 屏 面 板 的 一 部 分 ， 
也 具有 普通 的 升级 显示 屏 功 能 [70] 。 在 IPS 显示 屏 中 ， 这 些 电极 位 于 TFT 层 上 。 在 非 IPS 显 
示 融 里 ， 这 些 电 极 位 于 彩色 滤 光 片 的 底下 。 由 于 两 个 表层 仅 距离 几 微 米 ， 两 种 结构 在 性 能 
没有 差别 。 组 合 形 成 单一 般 入 式 投射 电容 驱动 电极 的 Veom 电极 数量 取决 于 像素 分 辨 率 、 屏 
幕 大 小 以 及 合适 的 电极 间隔 。 

比如 ,一 个 7in、1280 x720 的 LCD 有 155mm x 88mm WRB RB, WIA KA st 
投射 电容 式 驱动 电极 要 在 显示 器 的 水 平 长 边 形 成 ， 且 最 好 有 约 4. 8mm 的 电极 间隔 ， 那 么 把 
1280 像素 分 成 32 组 就 能 产生 由 40 个 接地 Voom 电极 构成 的 投射 电容 式 驱动 电极 ， 间 隔 略 多 
于 4.8mm。 感 应 电极 (在 彩色 滤 光 片上 ， 如 前 面 解释 ) 会 沿 显示 屏 短 边 垂 直 运 行 ， 相 同 的 
间隔 下 产生 18 个 感应 电极 。 图 2. 34 展示 了 一 个 混合 垦 入 式 结构 ， 使 用 了 Japan Display ( 索 
尼 公 司 的 前 身 ) 的 “像素 眼 ”i"11 作 为 例子 。 该 图 展示 了 电极 的 物理 分 布 和 欠 加 层 (不 按 比 
例 ) 。 
























































色彩 过 滤 玻 璃 层 上 
的 分 段 ITO 防 静电 屏 ITO GE) are 


ES 蔽 层 (感应 电极 ) 
SA s AREER 


N NN 
NN 


组 合 ITO Vcom 
电极 (驱动 电极 ) 














LCD 驱 动 器 











图 2. 34 Japan Display 的 产品 “像素 眼 ”混合 衣 和 人 式 触 摸 屏 结构 。 右 图 展示 了 能 和 人 式 TFT 层 
的 驱动 电极 ， 同 时 感应 电极 在 彩色 滤 光 片上 。 左 图 展示 了 更 多 物理 结构 信息 ， 说 明了 感应 电极 是 
通过 切 分 ITO 防 静 电 屏 蔽 层 形成 的 ， 而 驱动 电极 则 是 由 分 组 Veom 电极 形成 的 。 该 图 也 展示 了 包 
括 显 示 屏 和 触摸 控制 器 的 FPC 以 及 与 其 连接 的 两 组 电极 。 来 源 : Japan Display， 图 解 由 作者 标注 













































































以 上 描述 实际 只 是 数 种 混合 能 人 式 方 案 中 的 一 种 。 另 一 种 方式 ， 与 苹果 、 三 星 的 专利 描 
WR, TER EME (在 彩色 滤 光 片 的 底面 ) 覆盖 金属 作为 驱动 电极 ， 而 不 是 在 TFT 
层 上 进行 设置 。 

有 了 外 内 式 触 控 ， 使 用 无 需 连 接 LCD 的 标准 触摸 控制 器 ASIC 的 可 能 性 是 很 大 的 。 毕 竞 
外 内 式 触 控 电极 只 是 稍微 比 OGS 一 体 化 触 控 模 组 更 接近 LCD 一些 ， 因 此 增 大 的 LCD 噪声 并 
不 是 一 个 大 问题 。 然 而 ， 一 旦 部 分 触 控 系统 内 骨 LCD, ， 触 控 系 统 和 LCD 的 同步 化 对 解决 噪 
声 问题 来 说 就 十 分 必要 了 。 
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2.8.3 ARERR (编号 16) 


PRAT, ARS (in - cell) 触 控 是 指 触 控 系 统 完全 舰 入 LCD 内 部 。 前 面 指出 ，2012 
年 9 月， 苹果 公司 是 首 个 在 其 发 布 的 iPhone 5 智能 手机 中 批量 使 用 能 入 式 触 控 的 公司 。 
iPhone 5 的 配置 将 驱动 电极 和 感应 电极 放 在 了 IPS LCD AY TFT 层 上 。 这 是 使 用 与 前 述 相同 的 
分 组 和 改变 Vcom 电极 的 基本 技术 来 实现 的 ， 除 了 其 Vcom 电极 是 被 分 成 了 两 组 一 一 一 组 驱 
动 和 一 组 感应 。 实 际 操作 比 听 起 来 要 复杂 得 多 。 

图 2. 35 展示 了 分 组 的 过 程 是 如 何 进行 的 。 该 图 由 BOE Technology Group 的 中 心 研究 院 
发 布 ， 旨 在 以 浅显 易 懂 的 方式 解释 苹果 公司 的 专利 :1 (但 是 要 注意 ， 该 图 的 视角 不 大 准 
确 ; 图 示 中 各 正方 形 实际 应 该 是 54 像素 高 x 126 像素 宽 ， 因 此 它们 应 该 是 长 方形 )。 如 图 所 
示 ， 标 有 TX 的 行 是 数组 横向 (X) 切 分 的 Voom 电极 ， 由 ITO 组 成 并 由 金属 机 (黑色 ) 连 
接 。 每 行 都 通过 触 控 面板 金属 (记号 为 “TP”) 与 触摸 控制 器 相连 。 因 为 该 图 显示 屏 有 
1080 像素 高 且 有 20 个 驱动 电极 〈 行 ) ， 所 以 每 组 包含 54 个 Voom 电极 。 较 宽 的 列 是 垂直 的 
CY) 通过 触 敏 探 测 金属 (记号 为 “SA/D”) 相连 的 Veom 电极 。 每 10 列 也 包含 54 个 Veom 
电极 。 从 触摸 屏 的 角度 看 ， 驱 动 电 极 和 感应 电极 是 对 称 的 。 较 宽 列 两 边 的 罕 列 是 电气 连接 ， 
但 彼此 独立 的 仿制 ITO (这 种 仿制 ITO 常常 用 在 触 控 电极 中 以 实现 更 为 整齐 的 外 观 ) 。 
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图 2.35 该 示意 图 展示 了 iPhone 5 内 TFT 阵列 中 的 Veom 电极 是 如 何 分 组 形成 驱动 电极 和 感应 
电极 的 。 来 源 : 改编 自 BOE Technology Group 中 心 研究 院 








很 重要 的 一 点 是 ， 芋 果 公 司 iPhone 5 使 用 的 技术 仅 是 数 种 不 同 内 藤 式 触 控 方 案 的 其 中 一 
种 。 比 如 ， 苹 果 和 三 星 的 专利 描述 了 一 种 通过 切 分 Vcom 来 获取 驱动 电极 的 方法 ,但 是 感应 


电极 是 由 有 覆盖 在 黑色 矩阵 上 的 〈 在 彩色 滤 光 片 的 底部 ) 金属 制 成 的 。 这 两 家 公司 在 其 专利 
中 描述 了 男 一 种 方法 ， 其 中 黑色 和 矩阵 上 的 金属 作为 感应 电极 (如 前 面 所 述 )， 而 驱动 电极 则 
是 存放 在 介 电 层 上 的 ITO 线条 ， 介 电 层 下 面 是 彩色 过 滤 材 料 。 夏 普 公 司 在 2012 年 的 一 次 显 
示 系 统 会 议 上 描述 了 一 种 将 两 种 触 控 电极 都 存放 在 彩色 滤 光 片 底部 的 方法 ， 这 在 黑色 和 矩阵 和 
彩色 过 滤 材 料 应 用 之 前 。LG Displays 在 它 的 其 中 一 份 专利 文件 中 描述 了 一 个 仅 运 用 切 分 的 
Vcom 电极 的 自 电 容 法 。 

有 两 种 方法 可 以 使 触摸 控制 器 和 屏幕 控制 器 (TCON) 同步 : 稍微 调整 两 个 控制 器 并 通 
过 数 根 导 线 将 其 连接 ; 或 把 两 个 控制 器 并 入 一 个 必 片 中 。Synaptics 是 第 一 个 实验 了 两 种 方 
法 的 触摸 控制 锅 公 司 。 第 二 种 方法 的 主要 优点 是 减少 了 一 两 美元 的 触 控 系统 的 材料 清单 
(BOM) 成 本 ， 但 是 因为 芯片 的 开发 增加 了 一 次 性 工程 费用 (NRE) 成 本 ; 主要 的 缺点 是 合 
并 的 控制 器 只 能 使 用 于 特定 的 显示 分 辨 率 和 像素 组 成 。 显 然 ， 第 二 种 方法 仅 对 大 规模 产品 
(至 少 几 百 万 ) 有 实际 意义 。 

电容 能 入 式 触 控 技 术 的 优 缺点 总 结 见 表 2. 17。 

表 2.17 电容 艇 入 式 触 控 技术 的 优 缺 点 


优点 缺点 
大 多 数 投射 电容 的 优点 〈 如 果 在 控制 器 算法 中 正确 应 | 内 嵌 式 和 混合 式 仅 对 大 规模 的 显示 器 ( 数 百 万 ) 有 实际 意 
， 可 实现 稳健 的 多 点 触 控 ; 非常 轻 的 触 控 ; 允许 齐 平 包 | 义 ; 外 嵌 式 可 以 有 较 少 的 产量 ,但 是 它 可 能 会 减少 LCD 的 制 































































































边 保护 玻璃 ; 出色 的 视觉 性 能 ， 可 密封 ;等 等 ,) 造 量 
对 产品 的 每 个 新 实现 来 说 ， “参数 调整 ”的 需要 比分 离 








目前 无 法 升级 到 12in; 也 许 永远 无 法 像 分 离 式 一 样 可 升级 











式 电容 少 
比分 离 式 电容 (OGS) 的 成 本 低 ， 但 是 差别 并 不 显著 ， 
j 且 绝 非 “免费 "; 在 OGS 开始 使 用 ITO 替换 材料 后 ， 差 


别 可 能 减 小 
































更 难以 实现 与 分 离 式 相同 的 触 控 性 能 ;显示器 制造 商 也 许 
会 比 改进 触 控 性 能 更 重视 提高 产量 
























































控制 器 制造 商 可 能 会 较 慢 地 把 投射 电容 的 改进 方案 〈 如 抗 
水 性 、 活 路 触 控 笔 等 ) FIRAR RP 





比分 离 式 更 薄 (通常 100 ~ 150pm) 
























































功 耗 可 能 比分 离 式 稍微 低 些 ， 特 别 是 在 集成 了 艇 摸 和 显 | 显示 器 制造 商 也 许 不 愿 像 分 离 式 钥 控 面板 制造 商 那 样 生 产 
示 控 制 器 的 情况 下 多 种 保护 玻璃 ， 或 愿意 做 直接 结合 
机 会 减少 触 而 延 时 ， 特 别 是 在 集成 了 触摸 和 显示 控 刷 p 
iin Te eet VC RAER) 
器 的 情况 下 
TT AEE (EF EAE 

















并 非 绝对 的 压力 传 感 ， 只 有 相对 的 手指 接触 区 域 (与 投射 
电容 相同 ) 








2.8.4 内藤 式 光 感 (编号 17) 


内 概 式 光 感 触 控 技术 是 通过 在 部 分 或 全 部 LCD 像素 中 增加 光 检 测 器 而 实现 的 ( 见 图 
2.36)。 正 如 表 2. 16 所 示 ， 夏 普 是 第 一 个 在 2009 年 5 月 大 规模 地 在 消费 产品 中 使 用 了 内 恋 
式 光 感 技术 的 公司 ; 该 产品 是 一 台 带 有 显示 式 触摸 板 的 上 网 本 。 其 显示 器 采用 了 4in 大 小 的 
LCD， 运 用 了 夏普 854 x480 像素 (245ppi) 的 连续 晶 粒 (CC) 硅 技 术 。 一 开始 夏普 想 尝 试 
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每 个 像素 一 个 传感器 ， 以 使 显示 屏 同 时 作为 扫描 仪 ， 但 发 现 这 样 做 会 过 多 降低 显示 的 孔径 
比 。 于 是 他 们 使 用 每 九 个 像素 一 个 传感器 ， 这 样 产生 了 只 有 27ppi 的 扫描 分 辨 率 一 一 对 实际 
操作 来 说 不 够 高 。 即 使 是 每 九 个 像素 一 个 传感器 的 比率 ， 夏 普 仍 发 现 处 理光 传感器 的 输出 需 
要 更 多 的 CPU 带宽 ， 超 过 了 触摸 控制 器 可 以 提供 的 范围 ， 因 此 该 显示 式 触 摸 板 的 性 能 变 得 
出 乎 意料 的 低 ( 仅 为 一 个 普通 的 电容 触摸 板 速度 的 25% ) 。 









































图 像 传感器 二 一 





[一 | 背光 下 的 
红外 发 射 器 
a) b) 
图 2. 36 ARSC RAPE ORES, AEREA aSi 光 检 测 器 ; 它 放置 在 蓝 色 (最 低 ) 亚 像素 
中 ， 因 为 传 感 需 的 最 大 灵敏 度 是 在 蓝 -绿色 频谱 范围 内 。 右 图 展示 了 红外 光 从 红外 LED 射出 ， 背 光 由 手 
指 触 碰 屏 幕 反 射 并 由 光 传 感 嚣 感知。 来 源 : 改编 自 参 考 文献 [4] (E) MZE CA) 















































该 领域 的 研究 在 2000 ~ 2005 年 主要 集中 在 可 见 光 传感器 ， 预 计 该 传感器 能 够 在 光亮 环 
境 中 察觉 触 磁 物 体 的 影子 ， 或 在 昏暗 外 光 下 察觉 触 磁 物 体 的 背光 折射 !,5] 。 在 2006 年 研究 
人 员 意 识 到 可 见 光 的 局 限 性 之 后 〈 比 如 ， 它 无 法 穿 透 LCCD 上 的 黑色 图 像 )， 他 们 转向 了 红外 
光 传 感 器 。 这 一 改变 也 意味 着 红外 发 射 器 需要 加 入 到 背光 中 。 因 为 LCD 只 是 对 红外 光 适 度 
透明 ， 而 且 光 线 在 两 次 穿 过 LCD 的 过 程 中 有 所 削弱 ， 因 此 红外 发 射 器 必须 有 相对 高 强度 的 
发 射 。 在 夏普 显示 器 中 ， 红 外 LED 的 额外 功 耗 严重 降低 了 上 网 本 的 电池 续航 能 

从 2009 年 夏普 的 上 网 本 到 今天 (2013 年 ) ， 仅 有 两 款 商业 产品 使 用 了 交感 各 入 式 触 控 。 
第 一 个 是 由 中 国 台湾 IDT (集成 数字 技术 公司 ) 开发 的 21in 显示 器 !"6] 。 开 始 的 设计 中 只 有 
一 支 光 笔 ， 后 来 的 版 本 则 改进 为 支持 手指 触 控 ， 通 过 可 见 光 阴影 或 折射 法 实现 (如 前 一 段 
提 及 ) 。 

第 二 个 产品 是 由 三 星 联 手 微软 为 Microsoft Surface 2.0 而 开发 的 SUR40 40in 多 合 一 桌面 
电脑 !”] 。 该 款 LCD 包括 背光 内 红外 发 射 器 ， 并 实现 每 八 个 像素 使 用 一 个 红外 光 传 感 器 。 为 
了 改进 触 控 系统 的 敏感 性 ， 三 星 运用 了 aSiGe (JEMIE) 光 传 感 器 ， 它 们 比 普通 的 硅 光 传 
感 器 敏感 15 倍 。 虽 然 这 绝对 改善 了 触摸 灵敏 度 ， 但 它 也 带 来 了 一 个 新 间 题 : 对 环境 红外 有 
极度 的 敏感 性 。 该 现象 太 过 于 严重 ， 致 使 三 星 发 布 了 一 份 手册 ， 记 录 了 在 每 种 室内 光 下 触 控 
系统 可 以 容纳 的 最 大 光照 度 ; 白炽 灯 的 数值 仅 为 50lxi%] 。 该 产品 包括 一 个 测量 环境 红外 光 
和 显示 器 红 — BE - 绿 区 域 的 应 用 程序 ， 以 指示 是 否 光 照度 达到 足够 低 的 程度 。 

三 星 目前 正在 研究 为 OLED 显示 器 所 用 的 光 感 让 入 式 触 控 !3%] 。 该 概念 与 LCD 描述 相对 
应 ， 指 在 OLED 面板 中 能 和 人 红外 发 射 像素 ， 同 时 在 主动 矩阵 底板 中 装 上 红外 探测 传感器 。 

虽然 对 内 艇 式 光 感触 控 的 研发 已 经 进行 了 10 多 年 之 入， 这 仍 是 一 项 尚未 攻克 的 新 兴 
































术 ， 至 今 尚 未 有 大 量 的 消费 产品 成 功 发 布 。 表 2. 18 HERE T X AN RTE TE RR fh PE REO TF 
的 优 缺 点 对 比 。 
表 2.18 Asse RARER RA 
优点 缺点 

部 分 嵌入 式 电容 的 优点 ( 超 轻 触 碰 识别 ， 允许 齐 习 仅 对 大 规模 的 显示 器 有 实际 意义 ， 因 为 本 质 上 它 是 一 款 独 
保护 玻璃 ; 可 密封 ;等 等 ) 特 的 显示 设计 

也 许 是 最 低 成 本 的 人 能 入 式 触 控 技术 (只 有 一 组 传感器 ;| 难以 达到 分 离 式 或 髋 入 式 电容 相同 的 触 控 性 能 ， 处 理 传 感 
因 所 需 材 料 更 少 而 更 容易 和 LCD 集成 )， 虽 然 图 像 处 理 的 | 器 输出 的 数据 需要 使 用 CPU/GPU 密集 型 图 像 处 理 软件 ( 同 
要 求 可 能 抵 减 这 一 优势 视觉 触 控 ) 
降低 的 光学 性 能 〈 因 光 传 感 器 而 存在 较 低 的 LCD 孔径 比 ; 
因 红 外 发 射 器 而 存在 更 低 的 OLED 光 输 出 ) 

稍微 比分 离 式 电容 更 薄 (通常 100 ~150pm) ， 但 是 与 艇 | 对 环境 红外 光敏 感 ， 使 用 越 多 光 检测 器 时 敏感 度 越 高 ， 在 
入 式 电容 厚度 相同 十 分 光亮 的 红外 环境 下 难以 避免 光 检 测 器 饱和 

当 通 过 触 碰 物体 折射 的 红外 光 和 外 部 红外 光 相 同时 ， 在 交 
二 点 处 的 信 噪 比 低 〈 低 触 敏 ) 

光 检 测 器 的 低 信 号 水 平 增 加 了 触 敏 对 内 部 干扰 的 敏感 度 
( 比如， 临近 的 光 检测 器 的 杂 散 电流 ) 

触 敏 随 着 接触 平面 远离 LCD 而 降低 (H, SAR, €K 
屏幕 要 求 适 配 更 厚 的 保护 玻璃 ， 等 等 ) 
光学 传感器 密度 (ppi) 不 足以 使 显示 器 兼 具 扫 描 器 的 
功能 

由 红外 发 射 器 导致 功 耗 增加 

如 果 没 有 额外 元 件 就 无 法 支持 屏 外 图 标 〈 同 代入 式 电容 ) 








or 
这 












































没有 严格 的 尺寸 限制 (截至 2013 年 最 大 尺寸 为 40in) 






























































比分 离 式 和 幅 入 式 电 容 触 敏 需要 更 少 的 “参数 调整 ” 








对 外 部 RFIVEMI 的 敏感 性 更 低 


































































































2.9 ”其 他 触 控 技术 





2.9.1 压力 感 测 (编号 18) 


压力 感 测 总 是 被 视 为 触 控 技术 的 “圣杯 ”， 因 为 最 简单 的 检测 触 碰 的 方法 应 该 只 需 在 基 
板 多 个 位 置 上 测量 触 碰 的 压力 并 通过 三 角 测 距 找到 源 触 点 一 一 如 果真 是 那么 简单 该 多 好 1 
基于 压力 感 测 的 最 早 闻名 的 商业 产品 当 属 IBM 的 “TouchSelect” 触 控 系统 ， 该 触 控 技 
术 应 用 于 1991 年 生产 的 2 ~ 19in 的 CRT 显示 髓 上 。 它 使 用 了 应 变 仪 来 安装 触摸 屏 。 然 而 这 
并 未 取得 成 功 ， 仅 在 市 场 出 现 了 不 超过 三 年 就 销声匿迹 了 。 接 下 来 的 压力 感 测 产品 诞生 于 
2007 年 的 美国 ， 由 QSI 一 一 一 家 制造 人 机 互动 产品 和 移动 数据 终端 的 犹他 州 公 司 出 品 。 该 技 
术 冠 名 InfiniTouch™ ， 巧 妙 地 用 搭建 支架 的 方法 装配 应 变 仪 ， 从 而 消除 了 和 触 碰 水 平方 向 的 作 
用 力 [?] 。 为 了 避免 影响 其 现 有 销售 ，QSI 在 2008 年 使 压力 感 测 技术 自立 门户 并 命名 为 Vis- 
sumots0] ， 成 为 了 一 个 单独 的 子 公司 。 该 子 公 司 融资 不 足 ， 无 法 完成 将 一 项 轩 新 技术 打 人 竞 
争 激烈 的 市 场 的 艰巨 任务 ， 因 此 他 们 在 2009 年 就 耗 尽 了 资本 并 关门 停产 了 (QS 在 2010 年 
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被 Beijier Electronics 收购 ， 并 从 此 使 用 该 名 ) 。 

在 压力 感 测 技术 的 另 一 次 商业 化 尝试 中 ， 芬 兰 的 MyOigo 于 2000 年 开发 了 一 个 用 于 智能 
手机 高 级 用 户 界 面 的 压力 感 测 触摸 屏 。MyOigo 在 2004 年 由 其 管理 层 买 断 并 更 名 为 F - Origin 
重新 开始 。F - Orign 2005 年 在 芬兰 倒闭 ， 其 资产 由 一 个 美国 投资 商 收 购 ， 并 在 美国 于 2006 
年 重组 下 - Orign。 随 后 的 2007 ~ 2008 年 , F - Origin 继续 开发 压力 感 测 技术 ( 冠 名 
zTouch™ ) ) ， 但 由 于 受到 投射 电容 的 迅速 发 展 和 普及 的 影响 ， 其 仍 未 能 在 电子 消费 市 场 中 获 
得 任何 的 影响 力 。2009 年 ， 该 公司 被 TPK 收购 注资 (世界 上 最 大 的 投射 电容 供应 商 ) ， 实 
现 重组 ， 并 于 2010 年 冠 名 zTouch 在 市 场 上 开始 出 现 。F - Origin 目前 专注 于 商业 性 应 用 产 
品 ， 在 这 方面 ， 压 力 感 测 触 控 技 术 的 耐用 性 和 抗 环 境 干扰 性 具有 特别 价值 [5 。 

压力 感 测 触 控 通过 使 用 压力 传感器 支撑 显示 屏 (或 保护 玻璃 层 ) 运行 ， 这 些 传感器 通 
常 是 应 变 仪 或 压 电 式 传 感 避 。 为 了 获取 触 磁 表 面 的 准确 压力 读数 ， 显 示 器 和 /或 保护 玻璃 的 
移动 必须 限制 ， 这 样 才能 确保 它们 在 Z 方向 上 移动 。 有 几 种 方法 可 以 完成 这 个 任务 。 图 
2. 37 展示 了 目前 F - Origin 使 用 的 悬挂 弹簧 辟 法 。 






































产品 前 边框 (通过 两 个 弹 
筑 辟 固定 于 产品 底盘 上 ) 


/ 液晶 面板 (固定 于 前 边框 ) 





固定 前 边框 与 弹簧 臂 的 锦 钉 (4) 
GA SE ETERO) 








Be 致 动 器 (填充 材料 )(4) 
产品 底盘 压 电 试 压力 传感器 (4) 
弹 筑 辟 底部 锚 定 点 公差 调整 材料 (4) 








图 2.37 Æ F- Origin 压力 感 测 触 控 技术 中 ，LCD/ 保 护 玻璃 /前 边框 组 件 是 由 两 个 悬挂 弹 
簧 臂 支 撑 的 ， 弹 簧 臂 的 中 部 固定 在 设备 外 壳 (产品 底盘 ) ， 其 尾部 与 该 组 件 连接 。 四 个 压 电 式 
压力 传感器 安装 在 组 件 的 各 角 ， 位 于 组 件 和 设备 外 壳 之 间 。 由 于 悬挂 弹簧 臂 的 限制 ， 组 件 只 
能 在 Z 方 向 上 移动 ， 任 何 该 组 件 (如 显示 屏保 护 玻璃 ) 之 上 的 压力 就 能 被 检测 并 由 四 个 压 电 
式 压力 传感器 定位 。 来 源 : 改编 自 F - Origin， 图 解 由 作者 标注 






























































压力 感 测 触 控 技 术 的 优 缺 点 见 表 2. 19。 应 注意 到 该 分 析 不 包括 新 的 尚未 公布 的 压力 感 
测 方法 ， 比 如 在 显示 屏 下 使 用 压力 感 测 有 机 晶体 管 阵列 的 NextInput 产品 [22] 。 
本 章 一 开始 ， 我 们 就 预测 了 多 点 触 控 将 最 终 在 商业 应 用 中 发 挥 重 要 作用 。 基 于 该 预测 ， 
压力 感 测 技术 可 能 会 在 下 一 个 五 年 内 消失 ， 或 者 最 多 是 一 个 非常 小 众 的 市 场 。 
表 2.19 压力 感 测 触 控 技 术 的 优 缺 点 
难以 达到 多 点 触 控 〈 两 个 触 点 要 求 八 个 传感器 ; 这 之 后 传 
感 器 数量 急剧 增加 ) 























由 于 平面 玻璃 基板 而 产生 的 高 光学 效果 











接触 面 独立 〈 面 板 可 以 是 任何 硬 材料 ) ;可 以 是 带 有 其 
人 式 移动 物体 的 3D 基板 (这 是 独特 的 ) 















































最 小 触摸 作用 力 接近 零 ， 但 不 为 零 ， 类 似 投射 电容 

















优点 缺点 

可 以 被 任何 接近 零 触 点 作用 力 的 物体 激活 ( 触 控 笔 独 
立 ); 比 电 阻 式 要 更 好 
压力 敏感 ; 压力 可 取代 惹 浮 〈( 轻 触 屏 幕 获 得 选项 显示 ;| ”由 于 缺乏 五 点 触 控 ， 无 法 满足 Windows 8 触 控 规范 ， 这 限 
重 触 屏幕 给 出 选择 命令 ) ; 压力 也 可 用 来 减少 假 性 碰 触 制 其 向 商业 或 向 非 Windows 的 消费 者 产品 的 发 展 
耐用 特性 ;可 以 很 容易 设计 来 处 理 多 变 的 外 部 环境 触感 机 制 的 机 械 本 质 降低 了 可 靠 性 
a 化 实现 的 相对 低 成 本 (基板 加 上 四 个 压 大 量 传感器 增加 了 系统 负荷 (厚度 或 占用 空间 ) 
没有 预 触 控 (用 户 必须 实际 触 碰 基 板 ) 
对 EMI/RFI 和 环境 光 不 敏感 
连续 校准 可 以 过 滤 诸 如 振动 等 环境 条 件 
已 经 升级 到 42in; 理论 上 还 可 以 继续 升级 




















很 难 但 并 非 不 可 能 实现 齐 平 包 边 的 屏幕 设计 





































































































2.9.2 组 合 触 控 技术 


本 章 介绍 的 信息 清晰 地 回应 了 “没有 一 项 触 控 技 术 是 完美 的 ”的 概括 。 任 何 一 个 单项 
技术 无 法 满足 所 有 应 用 的 要 求 。 组 合 这 些 技术 倒是 一 个 可 以 更 好 的 制造 触摸 屏 的 方案 。 这 样 
的 例子 在 平板 电脑 、 电 子 书 和 电子 销售 终端 机 中 常常 可 见 。 例 子 如 下 。 

最 新 的 Microsoft 平板 电脑 常 把 投射 电容 式 指 控 触 摸 屏 与 电磁 (EM) 数码 笔 结 合 。 主 导 
的 EM 数码 笔 销 售 商 〈 日 本 的 Wacom) 提供 可 以 同时 驱动 触摸屏 和 数码 笔 的 控制 器 ， 实 现 
了 手笔 输入 模式 的 自动 切换 13] 。 

在 2011 年 5 月 ，Hanvon 公布 了 一 项 可 以 实现 相同 手笔 操作 目标 的 新 技术 组 合 方 法 。 
Hanvon 将 EM 数码 笔 和 一 组 压 感 压 电 式 电 容 组 装 在 相同 的 面板 中 ，EM 传感器 在 显示 屏 下 
方 。 同 样 用 在 笔尖 上 的 压 电 式 电 容 能 够 通过 电子 书 显 示 屏 (EPD) 544 (而 不 是 表面 ) 感 
受到 手指 的 作用 力 。 

一 家 自动 贩卖 机 的 主要 供应 商 偏爱 在 其 产品 中 使 用 传统 红外 光 。 但 为 了 减少 “ 预 触 碰 ” 
的 问题 ( 即 手指 干扰 了 红外 光束 ， 在 没有 实际 触 碰 显示 带 表 面 的 情况 下 发 出 了 触 控 指令 )， 



























































供应 商 在 触摸 屏 组 装 中 增加 了 一 个 压 电 换 能 器 ， 确 保 触 点 坐标 只 能 在 用 户 真 正 触 碰 屏 幕 的 时 
候 才 生 成 。 在 该 应 用 中 ， 换 能 器 检测 的 是 触 碰 的 “发 生 ”， 而 传统 红外 触摸 屏 探 测 的 是 触 点 
的 “位 置 ”。 


触 控 技 术 的 组 合 很 可 能 在 未 来 五 年 内 持续 存在 ， 尽 管 主 要 技术 的 组 合 常常 受到 成 本 的 限 
制 。 搁 绑 主 要 技术 与 边缘 技术 的 可 能 性 很 大 ， 如 上 述 提 到 的 组 合 传统 红外 和 压力 传 感 天 的 例 
子 。 结 合 现 有 的 触 控 技术 与 新 兴 的 人 机 界面 (HMI) 技术 同样 很 可 能 出 现 ; 比如 ， 投 射电 容 
与 低 成 本 、 迷 你 3D 相机 的 组 合 可 以 检测 触摸 屏 之 上 及 近 场 空间 内 的 手势 ， 从 而 超出 一 般 的 
悬 序 检测 范围 。 最 终 应 该 可 以 实现 的 是 ， 在 投射 电容 式 触 摸 屏 上 操纵 一 个 物体 ， 然 后 将 其 从 
2D 屏幕 “ 搜 出 ”并 拖 人 显示 器 和 用 户 之 间 的 3D 空间 内 ， 从 而 在 投射 电容 式 触摸 屏 和 3D 相 
机 之 间 无 颖 转换 物体 。 
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本 章 较 为 细致 地 介绍 了 当前 18 项 触 控 技术 〈 外 加 几 种 已 经 停 用 的 技术 ) 。 总 结 这 些 笨 
拙 信息 的 最 佳 办 法 莫 过 于 预测 这 18 项 触 控 技术 将 如 何在 未 来 的 5 ~ 10 年 1 内 演变 发 展 ， 见 
K 2.20, 
表 2.20 该 表 记叙 了 本 章 描述 的 18 项 触 控 技术 在 未 来 S ~ 10 年 内 的 可 能 演变 过 程 


























































































































































































































































































































编号 触 控 技术 Fim 
1 投射 电容 继续 保持 消费 市 场 第 一 的 位 置 ; 在 商业 应 用 中 显著 增长 
2 表面 电容 5 ~7 年 内 从 市 场 消 失 
3 模拟 电阻 显著 减少 ,但 不 可 能 完全 从 市 场 消失 
4 数字 多 触 点 电阻 专营 商业 和 军事 应 用 
§ 模拟 多 触 点 电阻 专营 商业 和 军事 应 用 
6 表面 声波 在 商业 应 用 中 适度 增长 
7 声学 脉冲 识别 专营 非 显 示 器 应 用 ( 触 敏 表 面 和 设备 ) 
8 色散 信号 不 到 五 年 就 会 从 市 场 消失 
9 传统 红外 线 大 屏 应 用 适度 减少 ， 商 业 应 用 显著 减少 ， 带 反射 显示 的 移动 设备 可 能 增加 
10 多 点 触 控 红外 线 在 多 用 户 游 戏 和 /或 合作 的 应 用 普及 且 技 术 成 本 降低 之 前 保持 有 限 增长 
11 摄像 光学 仅 大 于 40in 的 显著 增长 
12 DEDA 大 屏 专营 市 场 的 应 用 ， 可 能 在 消费 市 场 中 的 多 合 一 桌面 电脑 中 应 用 
13 视觉 光学 大 屏 专 营 市 场 的 应 用 
ET N 大 规模 消费 设备 中 显著 增长 ; 由 于 对 LCD ERWA THE, KAREA 
14 yh ite ck HA 、 
式 触 控 形式 
15 BRA SUG HLA 仅 在 大 规模 消费 设备 中 显著 增长 ; 普及 程度 排名 第 二 
ee 仅 在 大 规模 消费 设备 中 显著 增长 ， 由 于 对 LCD 屏 生 产 的 调整 较 大 ， 普 及 程度 排名 第 
16 ARREA Z 
17 内 板式 光 感 不 到 五 年 内 从 市 场 消失 ， 除 非 能 解决 当前 存在 的 问题 
18 压力 感 测 不 到 五 年 内 从 市 场 消失 或 存在 于 非常 小 的 专营 商业 市 场 








2.11 ”附录 


所 有 本 章 提 到 的 触 控 技术 供应 商 (不 再 经 营 的 除外 ) 均 按照 首 字母 排序 ， 见 表 2.21, 
其 相应 开发 的 技术 和 网 页 地 址 也 一 并 列 出 。 

表 2. 21 该 表 列 出 了 本 章 提 到 的 所 有 触 控 技术 供应 商 〈 不 再 经 营 的 除外 ) 及 其 相应 开发 
的 技术 和 网 页 地 址 。 














表 2.21 
公司 技术 编号 网 址 
3M Touch Systems 1, 2, 8 www. 3mtouch. com 
Apex Material Technology ( AMT) 1,734, 5 www. amtouch. com. tw 
苹果 1, 15 www. apple. com 


Atmel 1 www. atmel. com 
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( 续 ) 
A ERR Fa 
Baanto 11 www. baanto. com 
Citron 10 www. citron. de 
Cypress Semiconductor 1 www. cypress. com 
Elo Touch Solutions 1., 2; 3,6, 7, 9 www. elotouch. com 
FlatFrog 12 www. flatfrog. com 
F — Origin 18 www. f — origin. com 
General Touch 1,3,6, 9, 10, 11 www. generaltouch. com 
Gunze USA 1,3,4 www. gunzeusa. com 
IDS Pulse 10 www. idspulse. com 
Integrated Digital Technologies (IDTI) 17 www. idti. com. tw 
Japan Display (JDI) 16 www. j — display. com 
JTouch 1, 355 www. jtouch. com. tw 
LG Displays 1, 15 www. lgdisplay. com 
Lumio 1, 6, 10, 11 www. lumio. com 
微软 13 www. microsoft. com 
MultiTouch 13 www. multitaction. com 
Nissha 1,3 www. nissha. com 
Peratech 4 www. peratech. com 
Planar 1, 3, 6, 10, 11 www. planar. com 
PQ Labs 10 www. pqlabs. com 
Quanta 11 www. quantatw. com 
=e 14, 15, 17 www. samsung. com 
夏普 15, 17 www. sharp — world. com 
Shenzhen TimeLink Technology 10 www. timelink. cn 
SMART Technologies 11 www. smarttech. com 
Stantum 4 www. stantum. com 
Synaptics 1, 16 www. synaptics. com 
Texas Instruments 1, 3,5 www. ti. com 
TPK 1 www. tpk. com 
Visual Planet 1 www. visualplanet. biz 
Wacom 1, 2 www. wacom — components. com 
ZaagTech 10 www. zaagtech. com 
Zytronic 1 www. zytronic. co. uk 
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3.1 引言 








基于 自然 语言 理解 的 语音 识别 和 合成 是 现代 移动 通信 设备 用 户 界面 (UI) 不 可 或 缺 的 
部 分 。 近 年 来 ， 这 些 技术 从 配合 文本 输入 、 支 持 有 限 命令 和 控制 的 “附加 程序 ”已 经 发 展 
成 各 种 主流 移动 消费 设备 的 核心 功能 ， 如 语音 驱动 智能 手机 系统 。 有 评论 甚至 把 UI 语音 识 
别 和 自然 语言 的 理解 定义 为 用 户 界面 的 “第 三 次 革命 "， 第 一 次 和 第 二 次 分 别 是 鼠标 输入 的 
图 形 用 户 界面 和 触摸 输入 的 触 控 感知 界面 。 

这 些 新 技术 名 声 大 噪 的 主要 因素 有 两 个 : 一 是 它们 快速 改进 的 性 能 ;二 是 它们 克服 现 存 
“收缩 桌面 ” 式 的 移动 UI 固有 人 缺陷 的 能 力 。 后 者 主要 通过 从 有 声 语言 输入 中 精准 地 推断 用 
户 意 图 。 

伴随 各 种 移动 设备 使 用 量 暴 增 的 是 用 户 对 “内 容 ”、 功 能 、 服 务 和 应 用 方面 同样 急速 增 
长 的 需求 。 海 量 的 信息 变 得 愈 发 难以 用 现 有 的 可 视 移动 桌面 识别 、 寻 找 和 管理 ; 信息 很 容易 
淹没 在 层级 文件 夹 、 几 十 种 甚至 几 百 种 应 用 图 标 、 应 用 屏幕 和 各 种 菜单 中 。 
通常 ， 执 行 单个 触摸 屏 装置 指令 需要 多 个 步骤 。 例 如 ， 一 个 简单 的 银行 转账 事项 需要 用 
专门 的 移动 应 用 程序 来 回 切换 十 几 个 应 用 屏幕 。 

不 同 设备 的 特定 用 户 界 面 中 存在 很 多 的 变化 性 ， 使 得 可 用 性 问题 变 得 更 加 严重 。 现 在 移 
动 设备 有 许多 种 “形态 因素 ”: 有 大 屏 和 虚拟 键盘 的 平板 电脑 ， 有 为 眼 手 忙碌 而 无 暇 操作 提 
供 便捷 的 车 载 装置 界面 ， 有 无 键盘 无 定点 设置 的 电视 机 ， 也 有 各 种 “可 穿戴 的 ”装置 A 
如 智能 眼镜 和 手表 ) 。 通 过 这 些 完全 不 同 的 界面 ， 用 户 正 越 来 越 多 地 获取 相似 的 服务 一 一 搜 
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索 信 息 、 查 收 邮件 、 浏 览 社交 媒体 、 定 位 导航 以 及 欣赏 音乐 和 视频 等 。 

在 这 样 的 背景 下 ， 语 音 识别 (VR) 和 自然 语言 理解 (NLU) 代表 了 一 个 强大 的 自然 控 
制 机制 ， 它 可 以 穿 过 多 重视 觉 导 次、 中 间 应 用 或 网 页 。 自 然 语言 的 表达 紧凑 地 对 大 量 信息 进 
行 了 编码 。 当 你 说 “发 条 短信 给 罗 恩 ， 说 我 要 迟到 10 分 钟 ” 就 能 暗示 哪个 应 用 程序 应 该 先 
启动 、 要 把 信息 发 给 谁 和 发 送 什么 信息 ， 而 不 用 明确 地 提供 所 有 信息 和 每 个 步骤。 同样 的 ， 
你 可 以 给 电视 下 令 :“ 播 放 昨 晚 保 存 的 女 高 音 歌 曲 ”， 要 比 使 用 常规 界面 、 横 贯 多 层 菜单 结 
构 更 简单 。 这 些 功能 的 实现 能 够 创造 一 个 新 的 UI: 一 个 可 以 通过 对 话 与 用 户 互 动 并 提供 强 
大 功能 的 虚拟 助手 (VA)。 

在 以 上 例子 中 ， 用 户 开始 操作 时 无 需 先 点 击 电子 邮件 的 应 用 程序 图 标 ， 只 要 用 语音 和 自 
然 语 言 就 能 找到 并 操纵 资源 一 一 无 论 它们 是 显示 在 设备 屏幕 上 还 是 存储 在 设备 或 云端 
(Cloud) 中 。 这 种 融入 其 他 服务 的 方式 有 效 地 拓宽 了 传统 界面 应 用 。 
通过 了 解 用 户 的 意图 、 喜 好 和 过 往 的 交流 记录 ,包含 了 语音 和 自然 语言 的 界面 在 解决 问 
题 时 可 以 绕 过 中 间 搜 索引 擎 结果 页 ， 直 接 定 位 到 认为 对 用 户 有 用 的 目的 页 面 上 去 。 例 如 ， 某 
位 用 户 的 产品 查询 将 直接 在 页 面 中 显示 他 /她 平时 喜好 的 购物 网 站 。 

换言之 ， 这 样 一 个 系统 可 以 直接 从 结构 化 数据 源 或 非 结构 化 数据 源 中 提取 想 要 的 信息 ， 
通过 自然 语言 生成 (NLC) 来 构建 答案 ， 然 后 通过 语音 合成 进行 反馈 。 

最 后 ， 那 些 很 难 用 点 选 式 界 面 明确 说 明 的 指令 在 语音 界面 上 是 容易 表达 的 ， 例 如 ， 写 一 
个 以 其 他 事件 为 条 件 的 通知 :“ 快 到 咖啡 店 的 时 候 通知 我 。” 

在 符合 用 户 需 求 的 条 件 下 ， 还 可 以 用 其 他 方式 减少 一 些 步骤。 用 户 甚至 可 以 自然 地 对 设备 
说 出 自己 的 需求 而 无 需 开 启 设备 。 在 一 种 称 为 “无 颖 唤醒 ”的 模式 下 ， 装 置 运用 节能 算法 的 数 
字 信 和 号 处 理 器 (DSP) ， 能 够 持续 地 接收 到 重要 事件 的 发 生 。 当 检测 到 有 意义 的 输入 时 ， 装 置 
会 激活 再 处 理 模块 以 确定 是 来 自主 人 的 有 效 命令 〈 用 生物 计量 法 确认 身份 ) ， 最 后 执行 命令 。 

运用 自然 语言 的 前 提 条 件 是 语音 识别 能 在 大 量 的 用 户 和 嗜 杂 的 环境 中 准确 的 工作 。 语 音 
识别 在 过 去 几 年 里 发 展 显 著 ， 这 主要 归功 于 以 下 几 方 面 : 一 个 更 加 强大 的 计算 基础 (包括 
专门 用 于 语音 识别 的 芯片 结构 ) ; 高 速 快捷 的 连接 能 接 人 云 计算 甚至 是 最 小 的 移动 平 
台 ; 新 算法 和 建 模 技术 的 发 展 (包括 最 近 兴 起 的 神经 网 络 模型 );， 利 用 海量 数据 库 训练 强大 
的 统计 模型 。 

语音 识别 同样 也 利用 了 越 来 越 复 杂 的 信号 采集 技术 ,例如 利用 可 控 的 多 话 简 波束 形成 和 
杂音 消除 运算 来 提高 语音 辨别 在 嗜 杂 环境 里 的 准确 率 。 在 以 车 内 和 客厅 内 为 代表 的 高 噪声 、 
多 语音 源 和 常 有 娱乐 背景 声 的 环境 下 ， 这 种 处 理 更 有 价值 。 

近期 从 自然 表达 中 抽取 意义 的 技术 发 展 很 快 ， 主 要 得 益 于 以 下 三 个 互补 的 方法 : 

o 能 从 数据 中 发 现 规律 的 机 器 学 习 。 

。 明确 的 语言 “结构 ”模式 。 

。 明确 知识 表现 ( 本体) 的 形式 ， 能 把 已 知 关 系 和 实体 预先 编码 。 

就 像 在 语音 识别 中 一 样 ， 这 些 算 法 是 自 适 性 的 ， 并 且 都 从 每 次 互动 中 适应 、 学 习 。 

简洁 概括 的 表达 本 身 是 很 含糊 的 ， 但 是 人 类 却 可 以 通过 背景 环境 获取 许多 信息 。 同 样 
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的 ， 以 算法 的 方式 抽取 正确 信息 要 求 应 用 一 个 通用 的 模型 以 及 一 个 能 够 体现 交互 背景 和 历史 
的 表达 式 ， 还 包括 由 其 他 传感器 和 元 数据 提供 的 其 他 信息 形式 。 在 信息 不 足 导 致 无 法 消除 歧 
义 时 ， 语 音 和 自然 语言 界面 可 能 会 与 用 户 进 行 对话 交 流 ， 获 取 或 澄清 信息 。 

对 话 或 会 话 管理 最 早 是 从 “系统 主导 ”形式 发 展 起 来 的 ,“ 系统 主导 ”限制 用 户 只 能 回答 
某 个 应 用 程序 (通过 视频 或 者 合成 语音 ) 设置 好 的 问题 。 但 现在 已 经 发 展 成 更 具 灵 活性 的 
“混合 主导 ”形式 ， 让 用 户 可 以 积极 主动 地 提供 相关 信息 。 最 先进 的 形式 推理 方式 一 一 传统 人 
工 智能 (AL) 的 范畴 一 一 可 以 消除 每 次 互动 需要 的 预定 义 ， 并 动态 地 推断 出 目标 和 计划 。 

早期 的 人 工 智能 处 理 十 分 生硬 ， 而 现在 的 系统 依靠 的 是 既 灵 活 又 稳定 的 方法 应 对 模糊 表 
达 。 当 无 法 提供 准确 的 回应 时 ， 它 也 会 给 出 最 接近 的 解决 方法 。 这 种 高 级 系统 的 目标 就 是 能 
够 成 功 地 掌握 所 谓 的 “元 任务 ”, 例 如， 仅仅 只 要 输入 “最 后 一 个 会 议 后 在 “吉普 赛 人 私房 
菜 ” 预 订 一 个 餐 位 ,通知 汤姆 和 布 莱 恩 在 那里 等 我 *"， 而 不 是 让 用 户 顺 序 执行 基础 的 “ 微 ” 
任务 ， 例 如 确定 日 期 和 订 桌 。 

因此 ， 我 们 认为 “语音 界面 ”的 宏观 内 涵 实 际 上 就 是 它 是 智能 系统 的 重要 组 成 部 分 ， 
该 系统 包括 : 

。 通过 多 种 方式 和 用 户 互动 。 

。 理解 语言 。 

。 能 对 话 和 推理 。 

。 利用 语 境 和 用 户 喜 好 。 

。 拥有 专业 知识 。 

。 解决 高 级 任务 。 
在 现实 环境 里 具有 稳定 性 。 
如 图 3. 1 所 示 ， 该 系统 的 元 素 通 常 分 布 在 客户 端 和 云 服 务 上 。 
统计 培训 和 语言 限制 
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这 样 做 的 原因 包括 优化 计算 、 增 加 服务 的 可 获取 性 和 处 理 延迟 ， 以 及 为 用 户 提 供 在 多 对 
象 、 多 元 特性 和 功能 的 环境 中 始终 如 一 的 体验 。 

分 布 式 的 结构 体系 可 以 进一步 使 用 户 数据 从 多 个 设备 中 聚合 ， 这 样 就 可 以 不 断 改进 服务 
器 、 具 体 设 备 识别 和 NLU 模型 。 而 且 ， 存 储 在 中 央 存 储 器 里 的 交互 历史 能 使 用 户 无 颖 衔接 
其 开始 交互 的 设备 与 其 完成 交互 的 设备 。 

以 下 各 节 将 详细 描述 这 些 概念 和 基本 技术 。 


3.2 语音 识别 





3.2.1 语言 的 本 质 


语言 属 人 类 独 有 ， 能 让 人 不 费力 地 交流 复杂 的 思想 和 感觉 。 因 此 “话音 通道 ” 才 会 被 高 
度 优 化 以 促进 人 类 完成 交流 任务 。 组 成 有 声 话语 的 小 微 语言 元 素 叫 作 音素 ， 它 是 语言 中 最 小 的 
单位 ,一 旦 改变 ， 单词 或 者 表达 就 会 跟着 变化 。 音 素 的 物理 表达 就 是 “通话 ”, 但 语音 信号 不 
只 是 一 系列 拼接 的 声音 ， 像 摩尔 斯 电码 。 我 们 的 发 声 融 官 (CTR. iL, J) 以 难以 置信 的 速 
度 和 精心 的 编排 在 变换 着 共振 结构 。 我 们 的 声带 可 以 每 秒 打 开 和 闭合 100 ~ 300 次 ， 生 成 叫 作 
基 频 (FO) 的 信号 ， 它 激发 声 道 共振 ， 从 而 发 出 一 个 高 频 宽 的 声音 〈 例 如 0 ~10kHz) 。 

有 时 ， 共 振 是 混乱 的 噪声 在 声 道 收缩 时 产生 的 ， 例 如 S 的 发 诗 。 一 个 音素 的 声学 表达 不 
仅 是 不 固定 的 ， 而 且 在 现实 中 会 受到 前 一 个 和 下 一 个 预期 的 音素 影响 一 一 这 种 现象 称 之 为 协 
同 发 音 。 当 说 话 者 根据 当前 情况 和 听 者 的 需求 调整 自己 的 话语 时 ， 其 他 的 变化 就 会 产生 。 由 
此 导致 的 语音 信号 反映 了 这 些 在 复杂 且 快 速 变化 的 信号 中 运动 的 发 音 器 官 和 声 源 。 图 3. 2 展 
示 了 一 个 简短 话语 的 语音 谱 图 。 


























0.5 1.0 1.5 2.0 
时 间 /s 
3.2 这 是 短语 “Barbacco has an opening” 的 语音 谱 图 ， 横 坐标 表示 时 间 ， 纵 坐 
标 表示 频率 。 黑 色 部 分 表示 在 一 个 频率 范围 内 的 总 能 量 
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语音 识别 的 准确 性 和 性 能 的 进步 是 科学 和 工程 学 研究 人 员 共 同 努力 的 结果 ， 因 此 最 先进 
的 识别 器 包括 了 许多 精心 优化 设计 的 元 件 。1990 ~ 2010 年 间 ， 大 多 数 最 先进 的 系统 是 相似 
的 ， 并 在 逐步 地 加 强 和 改进 。 接 下 来 我 们 要 介绍 一 种 “标准 ”语音 识别 系统 的 基本 组 成 部 
分 以 及 一 些 最 近 的 发 展 。 

能 利用 标准 语音 识别 避 解 决 的 问题 都 符合 贝 叶 斯 规则 (Bayes? rule); 


Wr” = arg max( P(W|0)) (3.1) 
W 


























语音 识别 的 目标 是 找到 词组 序列 的 最 可 能 概率 W* ， 假 设 声学 观测 集 0， 运 用 贝 叶 斯 规 
则 ， 我 们 可 以 得 到 : 





_P(O|WP(W) 


P(Wloye Te (3.2) 
P(0) 
注意 到 P(O) 和 词组 序列 灰 无 关 ， 因 此 我 们 想 要 找到 ， 
W* =arg max(P(O|W)P(W)) (3.3) 
W 


我 们 使 用 声学 模型 (AM) 评估 PCO|W), ， 并 用 语言 模型 (LM) 评估 PCW). 
因此 ， 假 设 给 定语 言 结构 ， 大 多 数 的 











语音 识别 器 的 目标 就 是 通过 声学 观测 得 出 条 和 

的 最 高 组 合 概率 来 找到 词组 序列 。 Pee 
如 图 3.3 所 示 ， 一 个 标准 语音 识别 系 i 

统 图 可 以 很 好 地 反映 到 这 个 公式 中 。 声学 模型 eB 
声学 概率 的 评估 是 由 声音 前 端 和 一 个 Pv(O1W) Pu) 

















声学 模型 处 理 的 ， 而 词组 序列 的 概率 评估 
则 是 由 一 个 语言 模型 处 理 的 。 找 到 得 分 最 
高 的 词组 序列 的 代码 称 为 搜索 组 件 。 虽 然 
这 些 模块 在 逻辑 上 是 分 开 的 ,但 是 它们 在 
语音 识别 中 的 应 用 是 高 度 相互 依赖 的 。 图 3.3 标准 语音 系统 的 组 成 元 素 


3. 2.2 声学 模型 和 前 端 模式 


前 端 模式 : 输入 的 语言 被 数字 化 ， 并 转化 成 一 个 矢量 序列 ， 它 可 以 找到 由 一 个 声学 前 端 
输入 的 整体 频谱 。 多 年 来 ， 标 准 的 前 端 模式 都 是 用 梅 尔 频率 倒 谱 系数 (MFCC) 的 矢量 来 表 
示 语 言 的 每 一 个 帧 (大概 25ms) 0] 。 该 表达 被 选择 呈现 一 帧 的 整个 频谱 包 络 ， 但 抑制 了 基 
本 频率 的 谐 波 。 最 近 几 年 ， 其 他 的 表达 式 流行 了 起 来 "1 。 

声学 模型 : 在 一 个 标准 系统 里 ， 语 言 被 建 模 成 词组 序列 ， 词 组 则 是 音素 序列 。 但 是 声学 
表达 是 协同 发 音 的 结果 ， 声 音 和 词组 里 的 每 一 个 音素 都 相互 依赖 。 虽 然 语 境 依赖 性 可 以 跨越 






搜索 
arg max 
W 
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几 个 音素 或 音节 ， 许 多 系统 仍 采用 “三 音 子 ”估算 近似 音 位 ， 三 音 子 即 音素 受到 的 左 、 右 
语音 语 境 的 限制 条 件 。 因 此 ， 一 个 词组 序列 是 通过 三 


音 子 序列 的 表达 式 来 体现 的 。 这 里 有 许多 可 能 存在 的 
三 音 子 〈 比 如 503) ， 当 中 又 有 很 多 极 少 发 生 。 所 以 标 @ | g O 





REA SEALE DORAL ERRER], YG I 
焦 的 集合 建立 模型 ， 而 不 是 针对 每 个 三 音 子 。 








GMM 1: X; wi Nl 1.53,1)) 




















当 一 个 单词 包含 了 一 个 特别 的 三 音 子 时 ， 声 学 特 
征 可 以 建成 隐 马 尔 科 夫 模型 (HMM), E 3.4。 | 
HMM 是 简单 的 有 限 状态 机 (FSM) ， 包 括 状 态 、 转 换 GMM 2: F; w, Nel, 1 5 1) 
和 转换 概率 。 而 且 每 个 状态 都 与 一 个 含有 可 能 的 前 端 
矢量 的 概率 密度 函数 (PDF) 相关 。 ee es 


























l m PDF 是 高 斯 混合 模型 ， 在 假定 一 个 HMM 
HL, GMM 是 已 经 分 析 过 的 、 易 受训 的 PDF， 它 能 很 ; 
T HARAT seas Fit HA MIER 


地 估算 任意 PDF 的 结构 。 一 个 GMM 是 高 斯 函数 的 加 
权 和 ; 每 个 高 斯 函数 可 以 写作 : 


N(x |p,2) 



































1 
Vdet( X ) VOT)" 
式 中 , x 是 一 个 输入 矢量 ; py 是 一 个 平均 数 和 拓 量 ; 是 协 方差 矩阵 。x Mu 是 长 度 n 的 矢量 ， 
而 3 是 一 个 xn? HME, AS CMM 是 高 斯 函数 的 一 个 简单 加 权 和 ， 即 
GMM (x Win Min ? > pa) = 2 (wiN(x Hi» > ,)) (3. 5) 


3.2.3 使 语音 对 齐 隐 马 尔 科 夫 模 型 (HMM) 的 过 程 
在 语音 数据 流 中 ， 各 个 音素 有 长 有 短 ， 因 此 需要 校准 和 对 齐 输入 帧 和 HMM 的 各 状态 ， 
即 已 知 输入 语音 帧 0 和 一 个 HMM 的 状态 序列 一 个 对 齐 4 将 单 语调 帧 数 映射 到 HMM 状 
态 。 所 以 系统 需要 找到 帧 数 O 和 HMM 状态 之 间 的 最 优 〈 即 概率 最 高 ) 对 齐 4。 
Pay(O|H) = max [T (PCO Hep )) (3.6) 
y 
这 常用 维特 比 (Viterbi) 算法 5 来 完成 。 
对 于 每 个 假定 的 单词 序列 ， 系 统 会 从 字典 中 查找 每 个 构成 单词 的 音素 的 发 音 ， 然 后 用 决 
策 树 来 查找 语 境 中 每 个 音素 的 三 音 子 。 接 着 ， 根 据 三 音 子 的 序列 ， 系 统 会 查找 HMM 的 状态 
序列 。 该 假设 的 声音 概率 即 为 输入 语音 与 这 些 状态 最 优 对 齐 后 的 概率 。 该 对 齐 的 例子 如 图 
3.5 所 示 。 





pC- 34-p)T Er-p)) (3.4) 
































语言 模型 能 够 计算 不 同 单词 序列 的 概率 ， 并 帮助 识别 系统 指出 输入 话语 最 可 能 正确 的 含 
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单词 “increase” 与 HMM 的 对 齐 








2280 2290 2300 2310 2320 2330 2340 





2280 2290 2300 2310 2320 2330 2340 
wie 


图 3.5 语音 信号 的 维特 比 对 齐 〈 横 轴 ) ， 相 对 于 HMM 序列 ( 纵 轴 ) ， 浅 色 区 域 指 给 定 由 
值 下 受到 HMM 评估 的 较 高 概率 ; 虚线 表示 对 齐 


义 。 运 用 于 语音 识别 系统 中 的 语言 模型 可 以 分 成 截然 不 同 的 两 种 类 型 : 语法 型 语言 模型 和 随 
机 型 语言 模型 。 

语法 型 语言 模型 允许 一 些 单词 序列 ， 但 并 非 全 部 。 这 些 语 法 往往 取决 于 应 用 程序 ， 支 持 
与 某 些 特 定 任务 相关 的 话语 ， 比 如 预约 餐厅 或 发 布 电脑 命令 。 这 些 语法 规定 了 准确 的 单词 序 
列 ， 用 户 须 按照 这 些 单词 序列 才能 指示 系统 行为 。 比 如 ， 一 个 预约 系统 的 语法 可 能 可 以 识别 
像 “ 找 一 家 附近 的 中 国 餐厅 ” “七 点 预订 两 个 人 的 餐 位 ” ， 或 是 “给 我 看 看 菜单 ” 。 相 同 的 
语法 将 无 法 识别 诸如 “ 辣 香 肠 披萨 " “餐厅 运 营 的 经 济 学 分 析 ”， 或 是 “无 色 的 绿色 思想 愤 
怒 的 沉睡 ”。 
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语法 能 够 辨识 的 一 组 单词 序列 是 通过 诸如 有 限 状 态 机 或 无 语 境 语法 的 形式 语法 描述 的 。 
这 些 语 法 往往 以 形式 体系 编写 ， 像 语音 识别 语法 规范 (SRGS) ( 见 参考 文献 【6] ) 。 虽 然 建 
构 简 单 的 范例 语法 并 不 难 ， 但 是 编写 一 个 能 圳 括 用 户 所 有 可 能 输入 的 语音 的 语法 体系 就 不 简 
单 了 。 所 以 ,你 可 能 会 说 “附近 的 中 餐馆”“ 请 找 一 家 附近 的 中 国 餐 厅 ”“ 我 想 吃 中 国 菜 ”， 
或 “哪里 有 卖 广 式 点 心 的 "， 所 有 这 些 句 子 的 意思 是 一 致 的 (对 一 个 订餐 应 用 程序 来 说 )， 
但 是 编写 一 个 能 包含 所 有 选项 的 语法 任务 却 异常 艰巨 ， 因 为 用 户 的 表达 总 是 各 种 各 样 的 。 

随机 型 语言 模型 (起初 用 于 脱 稿 听写 ) 估算 了 任意 单词 序列 的 概率 (有 些 出 现 的 概率 
会 比 其 他 多 得 多 ) 。 这 样 ,“ 中 国 餐 厅 ” 就 是 一 个 合理 的 概率 ;“ 餐 厅 中 国 ” 相 比 起 来 的 概率 
就 小 些 ; 而 “附近 餐厅 中 国 的 一 个 找 ” 的 概率 就 更 小 了 。 编 写 一 个 语法 型 语言 模型 以 覆盖 
所 有 可 能 的 英文 输入 的 尝试 至 今 没有 成 功 : 因此 一 般 口 头 命令 应 用 程序 更 青睐 随机 型 语言 模 
型 。 人 们 发 现 使 用 随机 型 语言 模型 来 设计 一 个 实用 具体 的 程序 语言 模型 根本 没 那 么 复杂 ， 
NLU 人 处理 模式 还 能 针对 某 个 具体 的 应 用 来 设计 。 


随机 型 语言 建 模 的 宗旨 是 计算 POW) AGEL, PAE 
已 W) = [[ Pe; |z 1 510; 2 50; 3 977° W, W] ) (3.7) 


语音 识别 技术 的 一 个 惊人 突破 是 一 个 简单 的 近似 值 算法 (三 元 近似 值 ) 就 能 达到 不 错 
AS 









































的 效 

P(w; (w; ,20i -2 ,21013202 ,201 ) ~ P(w; |w; ,20i-2 ) (3.8) 

三 元 近似 值 认 为 句子 中 下 一 个 可 能 出 现 的 单词 仅仅 取决 于 前 两 个 单词 (并 且 一 个 V 元 

文法 模型 是 对 更 长 跨度 单词 序列 的 一 般 化 概括 ) 。 无 论 从 科学 还 是 语言 习惯 上 来 说 ， 这 都 是 

不 正确 的 : 许多 话语 表达 都 超过 两 个 单词 中 1! 但 是 这 个 近似 值 在 语音 识别 上 的 表现 却 非 
常 好 [8]。 


3.2.5 RR. MEP 1000 个 单词 完成 填 字 游戏 


找 出 联合 优化 的 单词 序列 来 描述 声学 观测 简直 就 像 是 在 玩 填 字 游戏 ， 声 学 得 分 限制 了 列 
数 ， 而 LM 得 分 限制 了 行 数 。 但 是 ， 直 接 考 查 单词 序列 有 太 多 的 可 能 性 (每 10 万 个 单词 可 
以 产生 107 个 十 单词 的 句子 ) 。 搜 索 组 件 的 目标 就 是 找 出 正确 的 假设 ， 尽 可 能 少 地 考查 其 他 
假设 的 可 能 性 。 这 是 通过 使 用 许多 试探 策略 来 实现 的 。 其 中 一 个 特别 重要 的 策略 就 是 定向 搜 
索 ， 即 一 个 接 一 个 地 排查 数据 帧 ， 使 得 分 接近 最 佳 假设 的 一 组 假设 “存活 ”下 来 。 

这 需要 多 少 计算 呢 ? 在 大 的 词汇 处 理 任务 里 ， 就 一 个 典型 帧 来 说 ， 搜 索 的 数据 内 容 可 能 
有 约 1000 个 可 行 的 假设 。 为 每 个 可 行 假设 更 新 得 分 需要 通过 计算 声学 模型 (GMM) 得 分 来 
扩展 对 齐 ， 这 样 才 能 符合 当前 处 于 HMM 状态 下 的 假设 ， 然 后 进行 下 一 个 状态 ， 然 后 继续 升 
级 对 齐 。 如 果 假 设 是 在 词尾 (每 帧 约 20 个 词尾 假设 ) ， 那 么 系统 也 需要 查阅 LM 得 分 来 寻找 
下 一 个 可 能 的 单词 (每 个 词尾 约 100 个 新 闻 ) 。 因 此 ， 每 帧 我 们 需要 约 2000 个 GMM, 1000 
个 对 齐 运算 和 2000 次 LM 查询 。 在 一 般 100Hz 的 帧 速 下 ， 我们 要 运算 约 20 万 个 GMM, 20 
万 次 LM 查询 和 10 万 次 /s 的 对 齐 更 新 。 
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3.2.6 训练 声学 和 语言 模型 


用 在 声学 模型 中 的 HMM 是 经 过 复杂 的 训练 过 程 从 大 型 数据 集中 创建 的 。 语 音 数据 被 转 
录 ， 然 后 提供 给 一 个 运用 最 大 似 然 目标 函 数 的 训练 算法 。 该 算法 估算 声学 模型 参数 ， 以 便 能 
够 根据 转录 内 容 增 大 观察 训练 数据 的 可 能 性 。 这 一 过 程 的 核心 是 自 展 程序 ， 即 利用 引导 指令 
将 一 个 初始 的 近似 声学 模型 输入 一 个 改进 的 版 本 ， 通 过 按照 转录 内 容 校准 训练 语 料 并 反复 训 
练 HMM。 该 过 程 被 重复 多 次 ， 以 期 生成 多 个 高 斯 混合 模型 ， 它 们 随后 经 过 训练 数据 的 考核 
并 得 出 其 中 的 高 概率 模型 。 

但 是 , 语音 识别 的 目标 并 非 重 现 声学 状态 的 最 有 可 能 单词 序列 ， 而 是 给 予 正确 的 单词 序 
列 假设 比 错误 的 假设 更 高 的 概率 。 这 样 ， 各 个 形式 的 区 别 训练 就 已 经 开发 出 来 并 用 来 调整 声 
学 模型 ， 以 减少 有 关 识 别 错误 率 的 各 种 方法 '? -1 。 

产生 的 声学 模型 一 般 有 上 千 种 状态 、 上 万 种 混合 模型 组 件 和 上 百 万 个 参数 。 标 准 系统 使 
用 “辅导 ”训练 ， 即 使 用 语音 和 相关 的 转录 来 训练 。 随 着 语音 数据 集 的 扩充 ,用 尚未 转录 
的 或 “粗略 标注 ”的 数据 找到 训练 方案 要 花费 很 大 的 功夫 。 

随机 的 语言 模型 是 经 过 含有 数 十 亿 词 汇 的 大 型 文本 数据 库 训 练 而 得 出 的 。 大 型 文本 数据 
库 从 互联 网 、 专 业 文 本 数据 库 和 安装 的 声音 识别 应 用 等 地 方 收集 。 基 础 的 训练 算法 比 在 声学 
训练 中 使 用 的 要 简单 得 多 〈 基 本 就 是 一 种 计算 方式 ) ， 但 是 找到 好 数据 、 仔 细 比 较 数据 以 及 
处 理 未 加 观察 的 单词 序列 需要 大 量 的 工程 技术 。 产 生 的 语言 模型 常常 包括 数 万 个 到 数 十 亿 个 
不 等 的 N 元 词尾 和 数 十 亿 个 参数 。 


3. 2.7 为 特定 说 话 人 识别 系统 调整 发 声 和 语音 模型 


人 们 的 说 话 方式 千差万别 。 每 个 人 的 遗 词 造句 都 会 受到 其 生理 、 口 音 、 所 受 教 育 和 说 话 
意图 风格 (如 宣读 正式 文件 和 日 常 手 机 短信 的 区 别 ) 的 影响 。 

由 此 产生 的 不 同 发 声 可 能 会 使 识别 特定 说 话 人 的 语音 系统 出 错 ， 尤 其 在 系统 还 未 经 过 话 
语 特征 组 合 范例 训练 的 情况 下 。 反 之 ， 依 照 某 个 说 话 人 模拟 的 特定 说 话 人 系统 可 能 会 比 一 般 
的 语音 系统 获得 更 高 的 准确 率 。 但 是 ， 用 户 不 大 可 能 录 下 上 千 小 时 的 语音 来 训练 一 个 声音 识 
别 系统 。 一 般 非 特定 的 语音 模型 仅 使 用 单个 用 户 的 语音 数据 ， 若 能 将 这 些 模型 改编 成 针对 特 
定 说 话 人 的 声学 和 语音 模型 ， 使 用 效果 是 非常 乐观 的 。 

声学 模型 有 很 多 种 编制 方法 。 早 期 的 产品 经 常 使 用 MAP (最 大 后 验 概 率 法 ) 训练 ， 它 
能 修改 被 HMM 使 用 的 GMM 的 均值 和 方差 。MAP 自 适 应 经 常会 闸 “ 数 据 荒 ”， 因 为 它 需 要 
对 系统 使 用 的 大 多 数 CMM 使 用 训练 范例 。 其 他 更 多 的 高 效 数据 自 适应 会 对 所 有 类 别 的 三 音 
F (如 MLLR 、 最 大 似 然 线性 回归 [21 ) 修改 CMM 参数 。 改 变 模 型 或 改变 输入 特征 都 是 可 
行 的 。 虽 然 “ 标 准 ” 自 适应 受到 了 “监管 ”( 即 使 用 带 转录 的 语音 数据 ) ， 有 些 形式 的 自 适 
应 目前 仍 缺 乏 管 制 ， 使 用 未 经 查验 正确 的 转录 来 输入 语音 数据 和 识别 假设 。 

语言 模型 也 可 以 根据 用 户 或 任务 的 不 同 而 进行 自 适应 。 自 适应 既 可 以 是 调整 单个 参数 
( 即 根据 某 个 特定 的 N 元 文法 模型 调整 建构 模型 的 参数 ， 类 似 于 MAP 声学 自 适应 ) ， 也 可 以 

























































































有 效 地 适应 参数 群 (类 似 于 MLLR) 。 比 如 在 为 一 个 新 领域 构建 一 
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差 值 加 权 来 合并 来 自 不 同 语料库 的 N 元 文法 数据 。 


3.2.8 


“标准 ” 系统 外 的 其 他 系统 
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模型 时 ， 可 以 使 用 


我 们 已 经 概述 了 语音 识别 系统 的 基本 原理 。 我 们 提出 了 许多 方法 ， 其 中 比较 重要 的 几 个 


在 表 3.1 中 列 出 。 

















































































































































































































































































































表 3.1 其 他 语音 识别 方案 
技术 解释 ie 
文献 
结合 AM 和 LM 得 分 
代替 了 等 式 工 中 的 公式 ， 到 ”= arg max (PO | W)°P (W) 
比较 AM 和 LM 7 [8] 
使 用 了 a <1， 因 为 AM 对 所 有 帧 的 观察 结果 并 非 独 立 
其 他 前 端 
PLP 感知 线性 预测 分 析 ， 找到 一 个 语音 输入 的 线性 预测 模型 ， 使 用 感知 加 权 [2] 
RASTA “相对 谱 ”， 用 来 去 除 信道 中 的 慢 速 变化 和 背景 噪声 特质 [13] 
差 值 (Delta) 和 双 差 值 | 给 定 一 个 帧 的 前 端 ， 扩展 矢量 至 包含 求解 帧 与 其 前 后 帧 的 差 值 及 二 阶 差 值 14] 
降 维 异 方差 线性 判别 分 析 (HLDA) : E MECC 或 其 他 语音 特征 ， 以 及 差 值 和 双 差 值 特 和 
征 , 或 “又 加 帧 ”( 即 一 系列 帧 )， 使 用 线性 转换 来 减少 前 端 特征 的 维度 i= 
声学 建 模 
本 在 HMM 使 用 全 协 方差 矩阵 需要 大 量 的 运算 和 训练 数据 。 较 早 版 本 的 HMM 使 用 更 简单 - 
近似 全 协 旋 郑 | 的 协 方差 矩阵 版 本 ， 如 “单方 差 * 、 对 角 协 方差 oe 
声 道 长 度 归 一 化 (VTLN)| VTIN 是 一 项 特定 说 话 人 技术 ， 它 能 基于 说 话 人 声 道 长 度 的 不 同 修改 声学 特征 [17] 
区 分 性 训练 
i 最 大 互信 息 估计 : 一 种 可 以 调整 声学 模型 参数 的 训练 方法 ， 它 能 把 正确 单词 序列 相对 [9] 
于 所 有 其 他 单词 序列 的 概率 最 大 化 
Me 最 小 分 类 错误 : 一 种 可 以 调整 声学 模型 参数 的 训练 方法 ， 它 能 最 小 化 单词 被 错误 识别 
的 数量 ane 
MPE 最 小 音素 错误 : 一 种 可 以 调整 声学 模型 参数 的 训练 方法 ， 它 能 最 小 化 “音素 错误 ”， rn 
即 被 错误 识别 的 音素 数量 
LM 
E 在 经 典 的 六 元 文法 模型 中 ， 不 仅 很 有 必要 预测 观察 到 的 GREK, TT La BE] 
反 向 预测 (Back -off) | ns _ ue [18] 
预测 那些 未 出 现在 训练 语料库 里 的 NN 元 文法 
上 数 模 型 ERORA! ( 又 称 最 大 烂 模型 ) 通 过 把 许多 不 同 的 概率 估 值 和 其 他 函数 相 乘 来 估算 单词 ‘a 
序列 的 概率 ， 并 在 对 数 域 比较 这 些 估 值 。 它 们 比 N 元 文法 模型 涵盖 更 长 的 范围 特征 = 
‘ PRLS AR EROR Ee A EZR EER, EER aN PRA] 
神经 网 络 LM ok [20] 
够 被 自动 确定 
系统 组 织 
为 了 减少 元 余 运算 ,最 好 呈现 出 音素 决策 树 ， 它 能 把 各 音素 映射 到 三 音 子 中 (三 音 子 
peT 是 构成 单词 的 音素 顺序 ) ， 并 把 语法 转换 成 有 限 状 态 机 模型 (又 称 加 权 有 限 状 态 传感器 t21] 





(WFST) ， 然 后 将 它们 并 入 一 个 大 型 的 FSM， 并 优化 这 个 FSM。 把 所 有 的 信息 编 和 人 一 个 


更 为 统一 的 数据 结构 有 助 





提高 效率 ， 但 也 会 在 动态 的 语法 或 词 








[ 表 方 面 出 现 问题 
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3.2.9 性 能 


语音 识别 准确 度 在 近 几 十 年 内 一 直 稳步 提高 。 早 期 的 口令 系统 在 20 世纪 80 FARE 
立 , 一 些 用 户 欣 然 接受 并 成 功 地 使 用 了 它们 ， 而 许多 其 他 用 户 则 发 觉 其 错误 率 很 高 并 深信 语 
音 识别 的 “时 机 未 到 ”。2010 年 ， 语 音 识别 性 能 的 些许 进步 引起 了 大 家 的 注意 ， 因 为 纽约 时 
报 的 科技 专栏 记者 David Pogue 报道 了 总 体 口令 的 错误 率 不 到 1%1”]。 虽然 大 多 数 对 讲 系统 
并 未 显示 接近 该 水 平 的 性 能 ， 但 通过 改进 算法 、 增 加 运算 和 使 用 更 大 的 训练 数据 库 等 联合 手 
段 ， 其 性 能 仍 在 逐年 提高 。 事 实 上 在 一 项 识别 多 个 说 话 人 同时 说 话 的 特殊 任务 中 ， 语 音 识 别 
系统 能 够 表现 出 比 真 人 更 高 的 语音 识别 能 力 [21 。 

根据 作者 近 十 年 来 的 体验 ,平均 单词 错误 率 在 大 型 词汇 口令 任务 中 已 经 每 年 减少 大 约 
18% 。 这 意味 着 获得 合格 性 能 体验 的 未 受训 用 户 人 口 比 例 在 稳步 逐年 增加 。 该 进步 不 仅 让 我 
们 能 够 面 对 诸 如 语音 搜索 的 技术 挑战 ， 还 能 有 机 会 应 付 更 具 挑 战 性 的 使 用 环境 ， 比 如 车 内 语 
音 控制 。 最 后 ， 准 确 度 的 提高 意味 着 语音 识别 已 经 成 为 了 解决 复杂 自然 语言 处 理 的 有 效 前 
端 ， 从 而 催生 出 一 批 轿 新 的 界面 程序 。 


3.3 语音 识别 的 深度 神经 网 络 


稳步 改进 的 “标准 ”语音 识别 系统 由 于 深度 神经 网 络 (DNN) 的 创立 而 在 近 几 年 间 章 
到 了 阻 断 。 深 度 神 经 网 络 是 一 种 人 工 神经 网 络 (ANN) 的 形式 。ANN 这 种 运算 模型 在 大 脑 
的 刺激 下 ， 能 够 进行 机 械 化 学 习 和 模式 识别 。 它 们 可 以 被 视 为 相互 连接 的 神经 元 ， 经 过 神经 
网 络 获取 信息 ， 从 而 运算 出 输入 数据 的 数值 。 

正如 其 他 机 器 学 习 方 式 ， 神 经 网 络 已 经 被 用 来 解决 了 许多 普通 按 规则 编程 难以 处 理 的 问 
题 ， 包 括 电脑 视觉 和 语音 识别 。 

在 语音 识别 领域 ，ANN 在 20 世纪 80 年 代 末 和 90 年 代 初 曾 一 度 流 行 。 这 些 早期 的 、 相 
对 简单 的 ANN 模型 并 未 真正 意义 上 超过 基于 CMM 的 HMM 和 声学 模型 的 成 功 组 合 。 研 究 人 
员 利 用 含有 单 层 非 线性 隐 单 元 的 人 工 神 经 网 络 ， 以 期 从 声学 系数 范围 中 预测 HMM 状态 。 在 
这 个 方面 他 们 还 是 取得 了 一 些 成 功 [24] 。 

但 是 在 那 时 ， 硬 件 和 学 习 算 法 都 不 足以 在 大 量 数 据 信 息 中 测试 含有 许多 隐 层 的 神经 网 
络 ; 无 论 是 使 用 含有 单一 隐 层 的 神经 网 络 ， 还 是 使 用 脱离 语 境 的 音素 作为 输出 ， 两 者 的 性 能 
优势 均 不 足以 真正 地 挑战 GMM。 因 此 ， 当 时 神经 网 络 的 主要 贡献 实际 在 于 为 CMM 提供 额外 
的 特性 ， 或 者 说 提供 了 使 用 ANN 的 “瓶颈 ”系统 来 为 CMM 提取 额外 的 特性 。ANN 当时 在 
语音 识别 系统 和 有 限 的 几 个 商业 产品 中 取得 了 一 定 的 成 功 !”]。 

几 年 前 ， 大 多 数 语 音 识别 系统 仍 是 通过 在 GMM 的 基础 上 使 用 HMM 来 建 模 HMM 发 射 分 
布 的 。 直 到 最 近 ， 新 研究 才 证 明了 混合 声学 模型 运用 了 更 为 复杂 的 DNN， 在 局 部 最 优 环境 
中 测试 很 少 出 现 “ 卡 壳 ”， 因 而 能 够 极 大 改善 小 音素 识别 任务 的 性 能 [2%] 。 这 些 结果 后 来 被 
应 用 到 一 个 大 型 词汇 语音 搜索 任务 中 ”3]。 从 那 之 后 ， 儿 个 测试 组 也 因为 在 大 型 词汇 持续 
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语音 识别 (LVCSR) 任务 中 使 用 了 深度 神经 网 络 声学 模型 而 取得 了 很 大 的 收获 1] 。 按 照 这 
MEA, DNN 内 入 系统 将 很 快 成 为 语音 识别 领域 的 最 新 最 前 沿 的 技术 。 

在 实践 中 ， 用 作 语 音 识别 的 DNN 是 数 个 多 层 感 知 器 神经 网 络 。 每 个 网 络 含 有 5 ~9 个 
层 ， 每 层 1000 ~ 2000 个 单元 。 尽 管 20 世纪 90 年 代 使 用 的 ANN 输出 的 是 脱离 语 境 的 音素 ， 
但 是 DNN 使 用 了 数目 庞大 的 绑 定 状态 三 音素 ( 像 GMM) 。 两 个 模型 的 比较 如 图 3. 6 所 示 。 


标准 ANN 


DNN 





隐藏 层 3 (2000) 


隐藏 层 4 (2000) 
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输入 (11x39) 




















图 3.6 20 世纪 90 年 代用 于 ASR 的 标准 ANN 与 现在 使 








的 DNN 的 比较 


DNN 经 常 与 局 限 型 玻 尔 兹 曼 机 器 (Restricted Boltzmann Machine) 算法 一 起 预 训 练 ， 并 
利用 标准 反 向 传播 进行 调试 。 分 段 信 息 通常 由 现存 的 GMM - HMM 系统 生成 。DNN 训练 方 





案 包括 许多 显著 的 环节 ， 如 图 3.7 所 示 。 
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3.7 DNN 训练 
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运转 时 ，DNN 是 一 个 标准 的 前 馈 式 神 经 网 络 ， 它 含有 多 层 反 曲 形 的 单元 和 一 个 最 顶层 
的 softmax 单元 ， 可 以 在 传统 或 并 行 的 硬件 上 高 效 执行 。 

DNN 被 ASR 使 用 的 方式 有 两 种 : 

1) 用 DNN 来 为 GMM 提取 特征 〈 即 受 限 特征 ) 。 这 可 以 通过 在 DNN 中 插入 一 个 受 限 层 
并 把 该 层 中 激活 的 各 个 单元 用 作 CMM 的 特征 。 

2) 直接 在 解码 器 (DNN -HMM 混合 模型 ) 中 使 用 DNN 的 输出 ( 绑 定 三 音 子 概率 ) 。 

第 一 种 方法 可 以 对 现 有 的 基于 GMM 的 ASR 系统 实施 快速 改进 ， 错 误 率 减少 10% ~ 
15% ， 但 是 第 二 种 方法 的 改进 效果 更 大 ， 较 最 新 的 GMM 系统 能 常常 减少 20% ~ 30% 的 
错误 。 

神经 网 络 作 为 高 质量 声学 模型 在 近期 重 获 好 评 的 主要 因素 有 三 个 : 

1) 更 深层 次 的 网 络 的 使 用 使 其 更 强大 ， 因 此 深度 神经 网 络 (DNN) 代替 了 浅 层 神经 
网 络 。 

2) 正确 的 初始 化 系数 和 使 用 更 快 的 硬件 使 其 能 够 有 效 训练 深度 神经 网 络 : DNN 与 局 限 
型 玻 尔 效 曼 机 器 算法 一 起 预 训练 ， 并 使 用 标准 反 向 传播 进行 调试 ; GPU 用 于 加 速 训 练 。 

3) 使 用 大 量 依赖 语 境 的 输出 单元 而 不 是 脱离 语 境 的 音素 。 一 个 含有 大 量 HMM 的 绑 定 
三 音 子 状态 的 大 型 输出 层 极 大 地 提高 了 DNN 的 性 能 。 重 要 的 是 ， 该 选项 使 解码 算法 大 体 上 
保持 不 变 。 

其 他 出 现在 DNN 训练 方案 内 的 重要 发 现 [*?1 包 括 : 

1) DNN 对 滤波 组 件 输出 的 作用 效果 比 MFCC 要 好 得 多 。 实 际 上 它 可 以 应 付 关 联 输 入 特 
征 ， 比 起 提前 改变 的 特征 ， 它 更 偏好 使 用 原始 特征 。 

2) DNN 比 GMM 对 说 话 人 的 敏感 度 更 低 。 其 实 使 用 特定 说 话 人 的 方法 相 较 于 非特 定 说 
iA DNN， 并 没有 得 到 很 大 改进 。 

3) DNN 在 嘲 杂 语音 中 性 能 良好 ， 结 合 了 许多 去 噪 预 处 理 方法 。 

4) 使 用 标准 逻辑 函数 神经 元 有 一 定 道理 ,但 可 能 不 是 最 佳 方案 。 其 他 单元 ， 如 修正 线 
性 单元 可 能 更 具 发 展 潜力 。 

5) 相同 的 方法 可 以 用 作 应 用 程序 而 不 是 声学 建 模 。 

6) DNN 结构 可 以 以 不 同 的 方式 应 用 于 多 任务 (如 多 语言 ) 学 习 ， 而 且 DNN 比 GMM 
在 抽取 某 个 任务 数据 和 改进 相关 任务 性 能 方面 要 有 效 得 多 。 


3.4 硬件 优化 


前 面 描述 的 算法 要 求 很 大 的 电脑 运算 资源 。 必 片 制造 商 越 来 越 意识 到 语音 界面 的 重要 
性 ， 因 此 他 们 正在 开发 专门 为 语音 优化 的 处 理 器 结构 和 NLU 工艺， 以 及 其 他 的 输入 传 感 带 。 
现代 用 户 除了 享受 桌面 电脑 和 电视 机 之 外 会 使 用 不 少 移动 设备 (笔记 本 电脑 、 平 板 电 
脑 、 智 能 手机 、 定 位 系统 ) ， 但 是 往往 受到 电池 续航 能 力 的 制约 。 这 些 设 备 本 身 已 经 变 得 越 
来 越 复 杂 ， 集 多 种 功能 于 一 身 ， 供 应 商 积极 参加 “军备 竞赛 ”， 较 量 谁 能 在 下 一 个 最 畅销 的 
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必 备 产品 中 拔 得 头筹 。 

虽然 用 户 期 待 功能 的 增加 ， 但 是 他 们 对 电池 使 用 时 间 的 期 竺 却 并 未 降低 : 笔记 本 电脑 应 
该 可 以 待机 几 小 时 ; 智能 手机 可 以 至 少 一 天 不 用 充电 。 然 而 电池 是 设备 的 一 部 分 ， 影 响 着 设 
备 的 重量 和 大 小 。 


3.4.1 低 电 量 唤醒 运算 


移动 设备 因此 需要 减少 耗 电量 。 软 件 可 以 暂时 叫 停 一 些 未 使 用 的 功能 ( 蓝牙、 无 线 上 
网 、 相 机 、 全 球 定位 系统 和 麦克 风 ) ， 并 在 需要 使 用 时 快速 启动 它们 。 设 备 还 甚至 可 以 进入 
省 电 模式 ， 让 系统 处 理 越 来 越 少 的 任务 。 联 想到 遵守 节能 星 (Energy Star) 国际 标准 的 电视 
机 和 其 他 装置 ， 它 们 通常 都 设 有 超过 三 个 状态 (开机 -关机 - 待机 ) AIA, IBA, AB 
是 怎样 “唤醒 ”的 呢 ?” 用 户 的 一 个 动作 是 当前 最 普遍 的 控制 方式 ， 比 如 按 下 设备 的 开关 键 。 

但 是 今天 的 设备 装 上 了 各 式 各 样 的 传感器 来 实现 这 个 目的 。 红 外 传感器 能 够 检测 遥控 信 
号 ; 光 传 感 器 能 够 在 被 掏 出 口袋 后 开启 ; 运动 传感器 可 以 侦 测 到 动作 的 发 生 ; 相机 可 以 定 焦 
FA; 麦克 风声 音 唤醒 可 以 感应 到 声音 活动 或 一 个 特殊 的 短语 。 

这 是 通过 低能 耗 、 基 于 数字 信号 处 理 (DSP) 的 “唤醒 口令 ”识别 来 实现 的 。 它 可 以 
使 用 户 对 设备 发 出 口令 而 无 需 先 将 其 打开 ， 进一步 减 少 了 区 分 用 户 意 图 和 期 待 结果 的 步 又 
数 。 比 如 ， 英 特 尔 超 极 本 (Intel - inspired Ultrabook) 就 集成 了 这 些 功 能 ， 在 听 到 “你 好 ， 
小 龙 ” 后 ， 它 能 马上 被 唤醒 并 聆听 用 户 的 命令 或 听写 文字 。 

至 此 安全 问题 开始 浮现 。 电 视 机 响应 已 知 的 信和 号， 无论 该 信号 是 否 为 原始 信号 。 任 何人 
用 遥控 器 就 能 操控 它 ， 或 者 说 ， 任 何 一 个 匹配 的 遥控 器 即 可 。 客 厅 虽 然 通常 最 多 只 有 一 台电 
视 机 ， 可 会 议 室 可 能 会 有 20 个 人 ， 人 人 都 可 能 有 手机 。 要 是 某 人 在 尝试 唤醒 自己 的 手机 的 
时 候 把 别人 的 也 唤醒 了 ， 那 可 就 太 不 受 待 见 了 ! 因此 ， 我 们 需要 用 个 性 化 设置 来 增加 安全 
性 。 运 动 传感器 只 会 对 某 些 动作 有 反应 。 数 码 相 机 只 会 响应 某 个 〈 些 ) 用 户 ， 该 技术 又 称 
“ 脸 部 识别 ” (Facial Recognition) ， 某 个 声音 唤醒 只 能 感应 特殊 的 用 户 的 专门 口令 一 一 “ 语 
音 生物 识别 技术 ”。 


3.4.2 ”特定 运算 的 硬件 优化 


这 些 传感器 都 会 耗 电 ， 特 别 是 在 它们 运行 的 时 候 ， 主 CPU 运行 的 程序 会 耗 用 大 量 电能 。 
在 开启 音频 系统 的 全 部 功能 时 ， 包 括 多 个 麦克 风 、 回 声 消除 和 波束 形成 等 都 会 大 量 耗 电 。 制 
造 商 因 此 需要 研制 特殊 的 硬件 以 减少 这 些 传感器 的 电力 负荷 ， 或 依赖 通常 比 主 CPU 的 运行 
速度 慢 的 DSP， 其 速度 约 为 10MHz 而 不 是 1 ~2GHz。 

与 单一 N 维 高 斯 模型 有 关联 的 概率 密度 函数 (PDF) 如 式 (3.4) 所 示 。 一 个 高 斯 混合 模 
型 (Gaussian Mixture Model) 总 的 PDF 是 各 个 PDF 的 加 权 总 数 ， 有 些 系统 可 能 有 10 万 个 或 更 
多 的 PDF， 可 能 需要 被 每 秒 估算 100 次 。 优 化 运算 〈 仅 计算 “可 能 的 ”PDF) 和 模型 估计 (如 
假定 协 方差 矩阵 呈 对 角 线 形 ) 均 应 用 于 减少 计算 负载 。 单 指令 多 数据 (SIMD) 计算 机 硬件 的 
出 现 曾 是 一 个 重大 突破 ， 因 为 它 使 这 些 线性 代数 算法 能 够 每 次 处 理 四 个 或 八 个 特征 。 
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最 近 在 图 形 处 理 单 元 (GPU) 的 使 用 上 又 取得 了 进展 。 一 开始 GPU 主要 用 来 加 速 3D E 
脑 图 像 (特别 是 游戏 ) ， 这 会 大 量 使 用 线性 代数 。GPU 在 上 述 那些 方面 帮助 了 PDF， 但 有 证 
据 表 明 它 运算 DNN 的 效果 特别 显著 。 

如 前 面 所 述 ，DNN 有 许多 节点 层 ， 每 个 节点 层 都 是 几乎 线性 处 理 的 结果 ， 该 线性 结 
被 应 用 于 每 层 节 点 层 下 方 的 节点 层 。 有 1000 个 节点 的 层 是 正常 的 ， 通 常 层 数 为 5 ~ 10 个 ， 
因此 有 效 的 应 用 DNN 需要 计算 5 ~ 10 个 矩阵 向 量 乘 法 ， 每 个 矩阵 是 1000 x 1000 阶 ， 且 该 计 
算 每 秒 进行 多 次 。 训 练 DNN 要 耗费 更 大 的 运算 资源 。 近 期 研究 表明 ， 训 练 非常 少量 的 数据 
可 花费 三 个 月 的 时 间 ， 但 是 使 用 GPU 可 以 将 时 间 缩 短 至 三 天 ， 时 间 上 减少 了 30 ZB! 。 


3.5 稳健 语音 识别 的 信号 强化 技术 


在 真实 场景 里 的 语音 识别 应 用 ， 接 收 的 语音 信号 通常 会 夹杂 许多 干扰 有 声 信 号 ， 比 如 青 
景 噪声 、 扬 声 需 发 声 、 冲 突 声音 或 回响 等 。 在 麦克 风 离 说 话 人 较 撑 的 时 候 尤 其 如 此 ， 比 如 ， 
在 车 里 或 家 里 的 应 用 。 最 精 糕 的 情况 是 干扰 的 信号 甚至 超过 目标 信号 ， 使 语音 识别 融 的 性 能 
严重 降低 。 语 音 技术 作为 人 机 交互 的 一 项 基本 高 效 工 具 正 变 得 日 益 重 要 ， 这 使 得 在 恶劣 环境 
下 的 系统 抗 噪 能 力 成 为 影响 语音 对 话 系统 的 核心 因素 。 


3.5.1 稳健 语音 识别 


抗 品 性 可 以 通过 调整 语音 识别 过 程 来 实现 ， 或 者 通过 一 个 专用 的 语音 增强 前 端 。 当 前 的 
系统 通常 使 用 两 者 的 结合 。 

稳健 语音 识别 的 前 治 技术 通常 包括 使 用 诸如 MFCC 或 神经 网 络 这 样 的 抗 噪 特征 ， 并 用 只 
声 夹杂 的 语音 数据 来 训练 声学 模型 ， 这 些 数 据 往往 代表 了 在 正常 应 用 中 经 常 出 现 的 各 种 噪 
声 。 但 是 由 于 声学 环境 纷繁 复杂 ， 训 练 不 可 能 涵盖 所 有 的 噪声 情景 。 于 是 人 们 发 明了 若干 种 
根据 噪声 环境 快速 改编 声学 模型 参数 的 方法 ， 这 些 噪 声 短暂 地 出 现在 输入 信号 中 。 例 如 ， 该 
技术 已 经 成 功 地 使 长 距离 对 话 声音 在 变化 的 回音 环境 中 保持 稳健 。 

语音 增强 算法 可 以 大 概 分 成 单 通道 法 和 多 通道 法 。 巾 于 各 种 噪声 来 源 和 环境 的 具体 统计 属 
性 ， 并 不 存在 一 个 涵盖 所 有 信号 和 干扰 的 统一 解决 方案 。 根 据 应 用 程序 ， 语 音 增强 前 端 常常 结合 
多 种 方法 。 最 普遍 的 是 把 单一 通道 噪声 和 诸如 消 噪声 、 空 间 滤波 的 多 通道 技术 结合 起 来 使 用 。 


3.5.2 单 通道 噪声 抑制 


单 通道 噪声 抑制 技术 主要 是 基于 频谱 加 权 法 。 在 这 种 方法 中 ， 信 和 号 一 开始 被 分 解 成 琶 加 
的 数据 模块 ， 每 个 模块 时 长 约 20 ~30ms。 随 后 每 个 模块 通过 使 用 短 时 傅 里 叶 变 换 (STFT) 
或 合适 的 解析 滤波 器 组 转换 成 为 频 域 或 子 带 域 。 接 着 ， 噪 声 信 号 的 频谱 内 容 由 衰减 系数 加 
权 ， 误 减 系 数 根据 估计 瞬时 信 噪 比 (SNR) 函数 在 频带 或 子 频带 中 进行 计算 。 选 择 了 该 函数 
的 结果 是 有 低 SNR 的 频谱 内 容 被 衰减 ， 而 有 高 SNR 的 则 没有 。 这 样 做 的 目标 是 为 了 得 到 
个 免 噪 语音 信号 的 频谱 系数 的 最 佳 佑 值 。 由 于 频谱 系数 得 到 改进 ， 一 个 无 噪声 的 时 间 域 信号 
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就 能 被 合成 出 来 并 传输 到 识别 器 中 。 男 外 ， 特 征 抽取 可 以 直接 在 改进 的 频谱 系数 上 进行 ， 避 
免 了 把 频谱 系数 转 回 到 免 噪声 的 时 域 中 。 

目前 大 量 用 来 计算 频谱 加 权 函 数 的 线性 和 非 线性 算法 已 经 开发 。 这 些 算 法 主要 在 基本 优 
化 标准 以 及 对 语音 和 噪声 的 统计 特征 的 假设 上 存在 差异 。 加 权 函 数 的 最 普遍 范例 是 谱 减 法 、 
威 纳 滤波 器 (Wiener filter) 和 最 小 均 方 误差 (MMSE) 估算 器 :2] 。 单 通道 噪声 抑制 方案 如 
图 3.8 所 示 。 图 3.9 显示 了 在 应 用 所 描述 的 频谱 加 权 系 数 之 后 ， 噪 声 短语 “Barbacco has an 
opening” 的 频谱 图 和 增强 信号 的 频谱 图 。 
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单 通道 噪声 抑制 算法 对 诸如 像 空 调 风扇 、 电 脑 风 扇 、 车 内 行驶 噪声 等 平稳 背景 噪声 非常 
有 效 ， 但 它们 却 不 适合 诸如 说 话 或 音乐 等 波动 干扰 源 。 在 单 通 道 系统 中 ， 背 景 噪声 大 多 只 能 
在 语音 暂停 时 被 追踪 到 ， 因 为 在 嗜 杂 的 语音 信号 中 ， 声 音 和 干扰 全 加 所 产生 的 频率 通常 较 
高 ， 使 单 通道 的 减 噪 方案 主要 被 限制 在 时 间 变 化 慢 速 的 背景 噪声 ， 而 这 样 的 噪声 在 话语 活动 
中 变化 并 不 大 。 

目前 已 经 为 殉 服 这 个 局 限 提出 了 若干 个 优化 方案 ， 包 括 利 用 显 化 清晰 的 语音 模型 或 语音 
和 具体 干扰 项 的 时 空 特征 ， 以 实现 语音 和 波动 噪声 的 分 离 。 有 效 的 方法 能 够 减少 风扇 声 、 敞 
篷车 的 风 吹 声 'w”] 、 高 速 脉 冲 噪声 或 模糊 不 清 的 声音 。 

单 通道 噪声 抑制 的 男 一 个 缺点 是 频谱 加 权 技 术 对 声音 的 固有 扭曲 ， 这 极 大 地 影响 了 低 信 
品 比 。 由 于 该 方法 依赖 于 SNR 产生 衰减 ， 当 背景 噪声 增加 时 ,会 有 越 来 越 多 的 目标 信号 内 
容 被 抑制 。 递 增 的 语音 扭曲 因此 会 降低 识别 器 的 性 能 。 


3.5.3 多 通道 噪声 抑制 


不 像 单 通道 噪声 抑制 ， 多 通道 的 方法 能 减少 声音 扭曲 并 增加 抵抗 波动 干扰 的 效力 。 其 缺 
点 是 增加 运算 的 复杂 性 ， 而 且 需 要 有 额外 的 麦 殉 风 或 输入 通道 。 多 通道 方法 可 归 为 噪声 消除 
技术 ， 主 要 利用 不 同 噪声 参考 通道 和 空间 滤波 技术 ， 如 波束 形成 法 ( 见 下 文 讨论 ) 。 


3.5.4 噪声 消除 


在 相关 的 噪声 参考 存在 时 可 以 使 用 自 适应 噪声 消除 431 。 这 意味 着 位 于 主 通道 ( 即 麦克 
风 ) 和 参考 通道 的 噪声 信和 号 是 单一 噪声 来 源 的 线性 变换 。 自 适应 过 滤器 用 于 找到 能 把 参考 
信号 投射 到 主 信号 内 噪声 的 转换 功 干扰 噪声 © 增强 语音 
能 。 通 过 用 转换 功能 过 滤 参 考 信 号 ， CRY 
主 通道 内 的 噪声 内 容 估 值 就 可 以 计算 ，, 
出 来 。 随 后 ， 噪 声 估 值 从 主 信号 中 减 rr ce 
除 ， 获 得 改善 的 语音 信号 。 自 适应 噪 
声 消 除 的 原理 如 图 3. 10 所 示 。 因 为 图 3.10 噪声 消除 器 的 基本 结构 
信号 和 噪声 在 麦克 风 的 线性 羡 加 ， 信 号 的 减 除 并 不 会 导致 任何 语音 扭曲， 只 要 确保 进入 参考 
通道 的 不 相关 的 噪声 内 容 和 目标 语音 信号 的 串扰 足够 小 。 

噪声 消除 的 有 效 性 实际 上 高 度 取决 于 是 否 有 适合 的 噪声 参考 ， 而 这 又 因 具 体 的 应 用 程序 
而 异 。 噪 声 消除 技术 在 手机 上 的 应 用 很 成 功 。 这 里 ， 参 考 话 简 通常 安装 在 离 主 话 简 尽 可 能 远 
的 地 方 一 一 通常 在 电话 的 上 方 或 后 部 一 一 以 减少 语音 信号 泄漏 到 参考 通道 中 。 但 噪声 消除 在 
车 载 应 用 中 减少 背景 噪声 方面 就 没有 那么 好 的 效果 了 ， 因 为 强劲 的 风声 和 轮胎 噪声 具有 漫 分 
布 特性 。 因 此 ， 如 果 主 话 简 和 参照 话 简 分 开 超 过 几 厘 米 远 ， 关 联 性 就 会 大 打折 扣 ， 导 致 大 量 
语音 信号 无 法 避免 地 泄漏 到 参考 通道 中 。 


3.5.5 回音 消除 
一 个 经 典 的 噪声 消除 应 用 程序 是 移 除 干 扰 扬声器 的 信号 ， 这 又 被 称 为 声学 回音 消除 
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( AEC) [1321 。 该 方法 是 用 来 移 除 远 端 用 户 使 用 免 提 接 听 电 话 的 回音 。 在 声音 识别 中 ，AEC 被 
用 来 移 除 语 音 对 话 系统 中 的 提示 音 或 家 庭 影院 、 移 动 设备 播放 的 立体 声 信和 号 。 

与 上 面 描述 的 噪声 消除 器 相似 ， 扬 声 器 参考 声音 经 过 自 适 性 滤波 器 处 理 ， 能 够 获得 扬 声 
器 发 声 在 话 简 信 号 内 的 佑 值 。 声 音 环 境 可 能 变化 迅速 一 一 比如 ， 人 们 在 房间 内 的 移动 ， 这 就 
使 自 适 性 滤波 器 的 快速 追踪 能 力 对 有 效 移 除 扬声器 噪声 至 关 重 要 。 

归 一 化 最 小 均 方 (NLMS) 算法 因 其 稳健 性 和 简易 性 的 优点 而 被 广泛 使 用 于 调节 上 自 适 性 
滤波 器 的 过 滤 系 数 。 该 算法 的 缺点 是 ， 如 果 干 扰 信 号 的 音频 波动 很 大 ， 算 法 的 收敛 速度 就 会 
降低 ， 就 像 演 讲 或 者 音乐 的 噪声 。 所 以 NLMS 常常 在 频 域 或 子 带 域 使 用 。 由 于 在 单 频率 子 带 
域 中 的 频谱 动态 通常 比 整个 频率 范围 要 低 得 多 ， 追踪 行为 可 以 有 显著 的 改善 。 另 一 个 在 子 带 
域 工作 的 好 处 是 AEC 与 诸如 噪声 降低 的 频谱 加 权 技 术 可 以 实现 高 效 合并 。 


3.5.6 波束 形成 


当 话语 被 一 系列 话筒 组合 捕捉 到 时 ， 产 生 的 多 通道 信号 也 会 包含 关于 声音 来 源 的 空间 信 
息 。 这 促成 了 空间 滤波 技术 ， 如 波束 形成 。 该 技术 能 从 目标 方向 中 抽取 信号 同时 减弱 其 他 方 
向 的 噪声 和 震动 。 自 适 性 滤波 技术 5 可 以 把 波束 形成 器 的 空间 特性 调整 至 实际 的 声场 ， 从 
而 有 效 抑制 了 移动 的 声 源 。 不 过 ， 这 种 自 适 性 波束 形成 器 的 方向 性 取决 于 话 简 的 数量 ， 在 应 
用 设备 中 常常 因为 成 本 而 限制 在 2 ~3 个 。 

为 了 改良 方向 性 ， 波 柬 形成 器 可 以 与 一 个 叫 作 空间 后 置 滤波 器 的 装置 捆绑 [5] 。 该 装置 
是 基于 应 用 于 降 噪 的 频谱 加 权 技术 ， 不 过 它 使 用 了 自 适 性 波束 形成 器 的 空间 噪声 佑 值 。 虽 然 
空间 滤波 可 以 显著 地 减少 干扰 噪声 或 冲突 扬 声 咒 ， 一 旦 扬 声 需 没有 安装 在 指定 位 置 ， 它 依然 
是 有 人 危害 的 。 因 此 必须 具备 稳健 的 扬 声 带 本 地 化 系统 ， 特 别 是 在 移动 的 情况 下 ， 目 的 地 的 方 
向 往往 随 着 用 户 移动 或 设备 倾斜 而 发 生 改 变 。 

实现 音效 本 地 化 的 一 个 简单 方法 是 选择 声音 强度 最 大 的 方向 3 。 若 在 相对 接近 设备 的 
地 方 安装 一 个 扬声器 ， 例 如 使 用 平板 电脑 时 ， 该 方法 的 效果 就 还 可 以 。 但 若 用 于 智能 电视 或 
其 他 智能 家 电 时 ， 离 设备 较 远 处 可 能 会 同时 有 好 几 个 扬声器 。 这 使 得 声 源 本 地 化 无 法 稳定 进 
行 。 因 此 ， 较 好 的 做 法 是 通过 相机 追踪 用 户 视 线 并 关注 那些 面 朝 设备 的 扬声器 。 另 一 个 方法 
是 用 手势 来 提示 设备 应 该 注意 哪个 声 源 。 
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列举 了 一 个 远 距离 操控 电视 的 语音 增强 前 端 。 该 系统 内 ， 回 音 消 除 的 使 用 移 除 了 多 通道 娱乐 
言 号 ， 同 时 波束 形成 和 噪声 降低 的 功能 用 于 抑制 诸如 室内 谈话 和 背景 噪声 等 干扰 声 源 。 


3.6 声音 生物 计量 





3.6.1 引言 


许多 移动 设备 安装 的 声音 驱动 型 应 用 需要 核实 用 户 身份 。 这 有 时 是 出 于 安全 的 需要 
(比如 ， 用 户 可 以 进行 金融 交易 ) ， 有 时 是 因为 要 保证 语音 命令 是 由 设备 的 主人 发 出 的 。 

声音 生物 计量 通过 人 的 声音 样本 辨识 身份 。 主 要 使 用 的 商业 应 用 是 说 话 人 验证 。 所 要 求 
的 身份 是 通过 比较 在 注册 和 验证 环节 的 声音 样本 来 验证 的 。 把 声音 样本 和 一 组 多 个 注册 用 户 
进行 匹配 也 是 声音 生物 计量 学 的 一 种 应 用 。 最 后 ， 如 果 录 音 包含 来 自 多 人 的 声音 数据 ， 比 如 
在 代理 人 和 顾客 之 间 的 对 话 中 ,“ 说 话 人 分 类 ”从 每 个 用 户 身上 抽取 声音 数据 。 所 有 这 些 技 
术 都 在 人 机 交互 中 发 挥 着 作用 ， 特 别 是 有 安全 考虑 的 情形 中 。 

声音 生物 计量 学 将 会 是 移动 用 户 界 面 的 核心 组 件 。 传 统 安全 方法 主要 采用 了 包括 个 人 身 
份 号 码 、 密 人 码 、 口 令 牌 等 乏味 的 措施 ， 在 与 移动 设备 互动 时 特别 笨拙 不 便 。 声 音 生物 计量 提 
供 了 一 种 更 为 自然 方便 的 核实 用 户 身 份 的 方法 。 它 有 多 种 应 用 ， 包 括 诸如 查收 电子 邮件 和 唤 
醒 移动 设备 等 日 常 活动 。 想 要 实现 “瞬间 唤醒 ”， 不 仅 需要 用 词 完 全 正确 ， 而 且 必 须 由 机 主 
本 人 启动 才 行 。 这 有 利于 省 电 和 防止 未 授权 的 设备 介入 。 其 他 应 用 包括 手机 银行 交易 和 购物 
许可 等 验证 。 

致力 于 开发 和 改进 说 话 人 验证 、 身 份 识别 和 分 类 的 技术 在 过 去 50 年 中 取得 了 不 小 的 进 
FE, 虽然 早期 的 技术 主要 聚焦 模板 式 途 径 ， 如 动态 时 间 规 整 (DTW)'3 ,但 它们 已 经 朝 着 
诸如 GMM (1.5.2 节 已 经 讨论 过 ) 这 样 的 统计 模型 发 展 。 最 近 的 说 话 人 识别 技术 已 经 采用 
GMM 作为 人 声 模型 建构 的 初始 步 又 ， 随 后 又 在 宛 余 属性 投影 (NAP) [4 、 联 合 因素 分 析 
(JFA)I41 和 全 要 素 分 析 (TFA) [2 中 应 用 。TFA 途径 产生 了 紧凑 的 人 声 表达 式 ， 又 称 为 I 
矢量 (或 身份 矢量 ) 。 这 些 都 是 声音 生物 计量 学 的 前 沿 发 展 成 果 。 


3.6.2 声音 生物 计量 面临 的 挑战 


其 中 一 个 声音 生物 计量 学 的 主要 挑战 一 直 是 减少 由 于 错误 匹配 注册 与 验证 声音 而 产生 的 
错误 率 。 比 如 ， 当 人 们 用 手机 注册 了 自己 的 声音 ， 又 在 个 人 电脑 上 验证 网 上 交易 的 时 候 ， 错 
误 就 可 能 发 生 。 此 情况 下 错误 率 增加 的 主要 原因 是 电脑 麦克 风 和 用 来 录制 的 频道 不 匹配 。 这 
一 问题 已 经 得 到 了 人 研究 人 员 的 广泛 关注 ， 并 能 够 由 NAP、JFA 和 TFA 途径 成 功 的 解决 。 但 
是 新 呈现 的 应 用 有 必要 进行 进一步 的 研究 。 另 一 项 任务 是 应 对 “声音 老化 " 。 这 是 指 由 于 注 
册 和 验证 的 间隔 时 间 逐 渐 拉 长 而 导致 的 验证 准确 率 下 降 !3] 。 模 型 自 适应 调整 是 一 个 可 能 的 
解决 方案 ， 即 注册 后 的 模型 可 以 随 着 验证 过 程 中 的 数据 特点 变化 而 改变 。 当 然 ， 这 只 能 在 用 
户 经 常 介 入 设备 的 前 提 下 可 行 。 
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声音 生物 计量 的 另 一 项 挑战 是 以 最 小 的 声音 数据 维持 可 接受 程度 的 准确 性 。 这 是 商业 应 
用 的 一 项 基本 要 求 。 在 “依赖 文本 ”的 说 话 人 识别 中 一 一 相同 的 词组 必须 用 来 注册 和 验 
证 一 一 2 ~3s (或 10 个 音节 ) 通常 能 够 产生 足够 的 准确 度 。 但 是 如 有 些 在 移动 设备 上 使 用 唤 
醒 词 的 应 用 则 需要 时 间 更 短 的 话语 来 验证 用 户 。 

虽然 把 握 时 间 信 息 和 使 用 定制 的 背景 建 模 能 改进 准确 度 ， 但 这 个 问题 一 直 是 一 个 挑战 。 
相似 的 ， 独 立 文本 的 说 话 人 验证 一 一 用 户 能 在 注册 或 验证 时 说 出 任何 短语 一 一 通常 30 ~ 60s 
就 能 够 产生 足够 的 准确 度 。 但 是 说 话 人 验证 和 身份 识别 性 能 是 经 常 需要 用 较 短 的 话语 完成 
的 ， 比 如 在 向 移动 设备 发 出 声音 命令 以 及 与 客服 中 心 的 代理 简短 谈话 的 时 候 ， 等 等 。 美 国 国 
家 标准 与 技术 人 研究 院 (NIST) 已 经 赞 助 了 许多 包括 验证 较 短 话语 的 说 话 人 识别 评估 项 
FU) ， 该 问题 仍 是 目前 研究 关注 的 领域 。 


3.6.3 声音 生物 计量 的 新 研究 领域 


声音 生物 计量 技术 自 诞 生 以 来 虽然 已 经 取得 了 重大 进展 ， 但 仍 有 许多 领域 值得 进一步 的 
探索 。 应 对 “欺骗 攻击 ”的 措施 (用 录音 回放 、 声 音 拼接 、 声 音 转 化 和 文本 朗读 技术 ) 仍 
显 不 足 。 许 多 类 似 的 攻击 手段 已 经 在 国际 语音 大 会 上 讨论 '$] 。 持 续 的 研究 致力 于 评估 这 类 
攻击 的 风险 并 尝试 预防 和 阻止 ， 主 要 通过 改进 生物 特征 识别 策略 和 语音 合成 的 检测 算法 。 

声音 生物 计量 是 未 来 语音 交互 系统 的 一 个 趋势 。 虽 然 语音 识别 、 自 然 语言 理解 和 文本 最 
读 的 开发 时 间 更 早 ， 但 声音 生物 计量 技术 正在 以 前 所 未 有 的 速度 为 商业 和 政府 部 门 提供 服 
务 。 它 拥有 验证 身份 或 定位 已 注册 用 户 在 某 一 地 点 的 便捷 手段 ， 减 少 了 身份 盗 穷 、 诈 骗 钱财 
和 安全 威胁 等 风险 。 近 期 在 计量 算法 上 取得 的 突破 增加 了 用 户 群 体 并 促进 了 该 项 技术 的 广泛 
应 用 。 




































































3.7 语音 合 





许多 手机 应 用 程序 不 仅 能 识别 并 执行 用 户 的 有 声 输入 ， 而 且 能 将 语言 信息 通过 文本 语音 
合成 (TTS) 向 用 户 展示 。TTS 有 丰富 的 过 往 发 展 经 验 !4] ， 许 多 元 素 已 经 得 到 标准 化 。 如 
图 3. 12 所 示 ，TTS 有 两 个 组 件 : 前 端 (FE) 和 后 端 (BE) 处 理 。 前 端 处 理 从 文本 分 析 中 获 
取信 息 ; 后 端 处 理 将 该 信息 依照 以 下 两 个 过 程 转 为 声音 : 

。 首先 ， 它 在 存 有 预先 分 析 的 语音 数据 的 索引 知识 库 中 搜索 ， 找 到 与 前 端 提供 的 信息 
最 关联 的 索引 数据 〈 单 元 选择 ) 。 

。 其 次 ， 该 信息 被 语音 合成 器 使 用 ， 以 生成 合成 语音 。 

预先 分 析 的 数据 可 能 被 存 为 编码 语音 或 一 组 用 来 驱动 语音 产 出 的 模型 参数 ， 或 两 者 同时 
存在 。 

图 3. 12 中 ， 前 端 被 分 成 两 个 组 成 部 分 : 文本 预 处 理 和 文本 分 析 。“ 真 实 世 界 ” 中 的 应 
用 需要 文本 预 处 理 ， 这 些 应 用 程序 中 的 TTS 系统 应 该 曾 释 大 范围 的 数据 格式 和 内 容 ， 包 括 
各 小 、 语 体 特色 鲜明 的 对 话 提 示 和 长 篇 的 、 结 构 复 杂 的 话语 。 文 本 预 处 理 视 具体 应 用 而 定 ， 
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比如 ， 需 要 阅读 从 数据 库 抽取 的 顾客 和 产品 信息 的 预 处 理 将 与 阅读 从 RSS 源 获 取 的 新 闻 截 
然 不 同 。 而 且 ， 文 件 可 能 包含 辅助 浏览 器 内 可 视 化 阅读 的 标记 或 在 页 码 上 的 标记 ， 比 如 标 
题 、 章 节 名 称 等 。 预 处 理 器 必须 重新 闻 释 该 信息 ， 使 其 产 出 能 够 按照 文本 的 结构 表达 。 


语音 数据 。 录制 脚本 its 


eee io 











文本 预 处理 








从 语音 数据 中 提取 的 特征 
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后 应 U=f(T,U) 
a 单元 选择 
在 单元 库 中 为 每 个 目标 寻找 最 


佳 匹配 ， 从 而 获得 单元 U 序 列 

















数据 准备 





| 已 标记 的 索引 参数 化 语音 数据 库 | 
图 3.12 语音 合成 结构 





文本 分 析 可 以 分 成 四 种 处 理 活动 : 符号 化 和 标准 化 ， 句 法 分 析 ， 葛 律 预测 以 及 字音 
换 。 符 号 化 有 助 于 合理 解析 正确 的 拼 字 。 比 如 ， 一 个 电话 号 码 在 写 下 来 后 能 够 被 识别 ， 并 在 
阐述 的 时 候 会 表现 出 常规 的 韵律 结构 。 在 符号 化 的 过 程 中 时 ， 各 字母 被 分 归 进 了 符号 组 ， 一 
个 符号 就 是 一 串 从 属于 定义 类 别 的 字符 。 一 个 数字 就 是 一 个 简单 符号 的 例子 ， 而 电话 号 码 就 
是 一 个 复杂 的 符号 。 符 号 化 在 像 汉 语 这 样 的 书写 体系 中 十 分 困难 ， 因 为 句子 是 以 汉字 的 顺序 
书写 ， 汉 字 之 间 没 有 书写 间隔 。 

文本 标准 化 是 把 正确 的 拼 字 转化 成 扩展 的 标准 化 表达 式 的 过 程 [ 如 $5. 00 就 被 扩展 成 
“five dollars”( 五 美元 ) ] 。 该 过 程 是 下 一 步 句 法 分 析 的 前 提 。 句 法 分 析 通 常 包括 部 分 语音 
确定 稳健 的 句法 结构 。 这 些 处 理 有 助 于 语音 发 音 的 筛选 和 韵律 结构 的 预测 ;41 。 

韵律 可 以 定义 为 语音 的 节奏 、 强 调和 语调 ， 它 是 交流 说 话 人 意图 (如 问题 、 陈 述 或 命 
S) 和 感情 状态 的 关键 (*“]。 在 声调 语言 中 ， 字 的 意义 与 具体 的 声调 规律 之 间 也 存在 着 关 
系 。 韵 律 预 测 组件 通 过 使 用 具有 象征 意义 的 信息 (如 强调 模式 、 语 调和 换 气 单位 ) 和 参数 
信息 (如 音 高 、 振 幅 和 长 短 轨迹 ) ， 能 够 在 韵律 上 表现 编写 在 文本 内 的 深层 含义 和 结构 。 参 
数 信息 可 以 量化 并 在 筛选 过 程 中 或 直接 在 参数 合成 器 中 作为 一 个 特征 来 使 用 (或 两 者 同 
用 ) 。 

在 大 多 数 语言 中 ， 字 素 〈 即 字母 ) 与 声音 的 表达 (MERK) 是 非常 复杂 的 。 为 了 简化 
筛选 正确 声音 的 过 程 ，TTS 系统 首先 将 字 素 序列 转化 成 音素 序列 ， 以 便 更 贴切 地 表达 要 发 出 
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的 声音 。TTS 系统 通常 结合 使 用 大 型 发 音 词 典 和 字 素 到 音素 (G2P) 规则 来 把 输入 转化 成 一 
个 音素 序列 。 一 个 发 音 词典 包含 了 数 以 万 计 的 词 条 (通常 是 词素 ， 但 也 有 成 形 的 单词 ) ， 每 
个 词 条 都 含有 单词 发 音 的 语音 表达 ， 但 有 时 也 有 其 他 诸如 词性 的 信息 。 发 音 可 以 直接 从 词典 
中 获取 ， 也 可 以 通过 结合 单词 的 形态 解析 和 词汇 查询 来 获得 。 没 有 哪个 词典 是 完整 的 ， 因 为 
新 的 单词 会 从 语言 中 持续 生成 。 各 G2P 使 用 语音 学 法 则 来 为 词汇 表 之 外 的 单词 生成 发 音 。 

生成 音素 序列 的 最 后 一 步 是 后 词汇 处 理 ， 也 就 是 影响 了 连 音 、 重 音 、 删 减 和 韵母 弱化 的 
持续 语音 生成 被 应 用 到 音素 序列 中 1”]。 根 据说 话 人 的 调整 也 可 以 应 用 于 把 词典 存储 的 或 
G2P 规则 生成 的 范例 发 音 转化 成 合乎 习惯 的 发 音 。 

如 前 面 所 述 ， 后 端 包含 两 个 阶段 : 单元 筛选 与 合成 。 在 两 个 广泛 使 用 的 合成 形式 中 更 受 
青睐 的 是 拼接 合成 ， 即 由 单元 索引 的 选 定 声音 片段 有 选择 的 组 合 一 起 。 诸 如 基 音 同步 到 加 法 
(PSOLA) 这 样 的 信号 处 理 方法 可 以 用 来 修整 衔接 处 并 提供 更 强 的 韵律 控制 ， 虽 然 这 会 导致 
一 定 的 信号 退化 !4 1 。 参 数 合 成 常用 HMM 合成 法 ， 即 使 用 频谱 帧 和 激励 参数 来 驱动 一 个 参 
数 语 音 合成 器 [5 。 

表 3.2 指出 了 拼接 法 和 参数 法 的 不 同 。 如 表 所 示 ， 拼 接 法 保证 了 最 大 的 忠实 度 ， 却 牺牲 
了 灵活 性 和 规模 ; 参数 合成 在 小 规模 的 基础 上 提供 了 很 大 的 灵活 性 ,， 却 牺 竹 了 忠实 度 。 因 
此 ， 参 数 方案 通常 使 用 在 存储 空间 有 限 的 钥 入 式 应 用 中 。 

单元 筛选 5 2 尝试 从 已 生成 的 数据 库 中 寻找 单元 U 的 最 优 序列 ， 数 据 库 中 描述 了 前 端 
为 分 析 句 子 而 生成 的 目标 序列 7 的 特征 ( 见 图 3.12)。 两 个 试探 性 获得 的 成 本 函数 被 用 来 限 
制 搜索 和 筛选 。 这 些 是 单元 成 本 (数据库 中 的 单元 特征 与 目标 序列 中 的 元 素 的 匹配 近似 度 ) 
和 联合 成 本 (附近 单元 的 匹配 程度 ) 。 通 常 动态 编程 用 来 建构 全 局 中 最 优 单 元 的 序列 ， 以 减 
少 单元 和 联合 成 本 。 



































N N-1 
U = argmin >) Unit(T,, U,,) + > Join( U, Un) 
u n=l n=l 


表 3.2 拼接 法 和 参数 法 的 不 同 























































































































类 别 拼接 分 析 参数 分 析 
质量 不 等 ， 最 好 高 度 自然 。 通常 有 好 的 分 段 ” _ 
滞 音 质量 语音 质量 一 致 ， 但 是 具有 合成 “处 理 的 ”特点 
语音 质量 质量 ， 但 可 能 会 前 律 较 差 语音 质量 一 致 ， 但 是 具有 合成 “处 理 的 ” 特 
语料库 大 小 质量 关键 取决 于 声音 数据 库 的 大 小 训练 少量 数据 时 表现 流畅 
信号 操控 eee 默认 信号 操控 。 适 合 说 话 人 和 语 体 自 调 束 
基本 单元 拓 波形 语音 参数 
BrE 简单 的 言语 存储 编码 导致 占用 较 大 的 内 存 | REEE a E SSG EUNA 
ae 空间 间 。 系 统 具 有 弹性 ， 可 以 减少 系统 空间 占用 
质量 取决 于 从 单元 存储 中 选择 的 持续 语音 的 E 
顺畅 稳定 ， 较 之 前 未 能 看 到 的 上 下 文 来 说 更 具 
产 出 质量 。 | 长 度 。 比 如 ， 限 域 系统 ， 往 往 在 选择 中 趋向 于 | 下 
产 出 较 长 的 存储 语音 ， 其 合成 也 更 为 自然 ide 
语料库 质量 需要 准确 标记 的 数据 可 容忍 标记 错误 








在 HMM 选择， 目标 序列 T 被 用 来 建构 一 个 HMM， 参 考 来 自 语 境 集群 的 三 音 子 HMM 的 
拼接 。 得 出 的 最 优 序列 的 参数 矢量 可 以 对 下 式 进行 最 大 化 : 
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O =arg maxP( O |A,N) 
式 中 ，0 是 要 被 优化 的 参数 矢量 序列 ; A 是 一 个 HMM, N 是 序列 的 长 度 。 不 同 于 单元 筛选 
法 是 基于 局 部 单元 成 本 和 联合 成 本 来 决定 最 佳 性 ， 统 计 法 则 设法 构建 一 个 避免 突然 阶 跃 变化 
的 最 优 序列 ， 通 过 考虑 二 阶 特征 来 实现 [1]。 虽 然 还 是 未 被 广泛 采用 ， 现 在 一 个 新 兴 的 趋势 
是 混合 这 两 种 方法 ‘3”]。 混 合法 使 用 状态 序列 来 共同 生成 参数 和 单元 的 候选 序列 。 对 于 使 用 
哪 种 方法 的 决定 需要 在 每 一 个 状态 下 做 出 ， 且 基于 语言 的 语音 规则 和 对 参数 方案 强大 建 模 功 
能 的 理解 。 

生成 自然 合成 语音 有 两 大 最 根本 的 挑战 。 首 先是 表达 式 ， 它 是 FE 能 够 辨识 和 稳健 抽取 
特征 的 一 种 能 力 ， 抽 取 的 特征 与 在 有 声 语 言 中 观察 到 的 特征 一 一 对 应 ; 伴随 相关 的 是 另 一 种 
能 够 查找 并 标注 相同 特征 的 语音 数据 的 能 力 。 一 个 索引 了 极 少 特征 的 语音 数据 库 会 生成 较 差 
的 单元 识别 力 ， 而 只 能 生成 一 组 索引 特征 的 FE 将 导致 数据 库 中 的 单元 永远 无 法 用 作 训练 或 
筛选 。 换 名 话说 ，FE 的 表达 能 力 必须 匹配 索引 的 表达 能 

第 二 项 挑战 是 贫乏 性 ， 即 必须 存在 足够 的 声音 样本 来 充分 展示 FE 生成 的 特征 表达 能 
力 。 在 拼接 合成 中 ,贫乏 性 意味 着 系统 被 迫 选择 一 个 匹配 不 足 的 声音 ， 仪 仅 是 因为 它 无 法 找 
到 充分 的 近似 值 。 在 HMM 合成 中 ， 贫 乏 性 导致 产生 了 训练 不 足 的 模型 。 听 党 效果 的 贫乏 性 
随 着 语 体 越 发 丰富 而 增加 。 通 过 构建 能 够 从 高 层 特征 中 生成 合成 声音 的 语音 模型 ， 贫 乏 性 能 
够 在 某 种 程度 上 因为 这 些 强大 的 模型 而 得 到 缓和 。 最 近 ， 诸 如 CAT (集群 适应 性 训练 ) H 
和 DNN (深度 神经 网 络 [Zen 等 ，2013 ] ) [5 这 样 的 技术 已 经 得 以 应 用 ， 通 过 避免 分 段 造 成 
的 贫乏 性 效果 增加 ， 它 们 能 够 最 优化 现 有 的 训练 数据 。 

如 表 3. 2 所 示 ， 拼 接 法 取得 的 商业 成 功 主 要 由 于 高 度 忠实 的 合成 技术 是 可 行 的 ， 只 要 小 
心 控制 好 录制 语 体 并 确保 在 构建 语音 单元 数据 库 时 ， 在 重点 应 用 领域 有 足够 的 声音 覆盖 。 用 
相对 简单 的 FE 分 析 和 简单 的 BE 合成 是 可 以 取得 令 人 意外 的 优质 成 果 的 。 但 从 技术 上 来 说 ， 
这 些 方法 有 可 能 会 逐渐 陷入 困境 。 虽 然 这 些 系 统 服 务 于 许多 传统 市 场 ， 但 它们 还 是 比较 昂 
足 ， 生 成 也 比较 费时 。 

高 度 表达 个 性 化 代理 日 益 增长 的 商业 需求 正 不 断 推动 可 训 型 系统 的 开发 。 在 FE SM, 
统计 分 类 器 正在 取代 规则 式 的 分 析 方 法 ; 在 BE 方面 ， 数 据 筛选 和 混合 参数 系统 正在 促成 灵 
活性 与 忠实 性 的 相互 结合 [3 。 想 要 合成 诸如 新 闻 和 维基 百科 词 条 这 样 的 复杂 文本 的 决心 鼓 
励 着 开发 者 思考 如 何 把 语义 学 和 语 用 学 的 知识 灌输 到 FE 中 ， 也 因此 需要 考虑 如 何在 BE 中 
实现 抽象 概念 与 其 声学 实现 的 复杂 数据 匹配 [3] 。 


3.8 自然 语言 理解 


我 们 已 经 谈 到 ， 语 音 是 与 移动 设备 交流 的 一 种 特别 有 效 的 方式 。 用 户 的 语音 构成 了 特定 
系统 运行 指令 和 系统 获取 相关 信息 的 请 求 。 用 户 的 话语 首先 经 过 自动 语音 识别 模块 转换 成 文 
本 。 随 后 已 辨识 的 文本 经 由 自然 语言 理解 (NLU) 模块 处 理 后 , 语义 从 声音 中 抽 离 出 来 。 
在 真实 场景 中 ， 已 辨识 的 文本 可 能 会 有 错误 ， 因 此 通常 的 做 法 是 输出 一 个 备 择 假设 的 
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“top -N ”列表 ， 或 一 个 结果 网 格 ， 这 样 NLU 就 能 探索 其 他 的 备 选 答案 。 意 义 的 准确 抽 离 对 
系统 执行 正确 指令 或 获取 目标 信息 十 分 必要 。 

NLU 模块 的 复杂 性 取决 于 系统 提供 给 用 户 的 各 种 功能 和 预 设 的 用 户 语言 变化 。 现 在 许 
多 口语 对 话 系统 受 限于 能 够 执行 的 任务 范围 ， 并 需要 有 限 的 、 可 预测 的 语音 输入 来 完成 那些 
任务 。 例 如 ， 餐 厅 的 预订 系统 就 要 求 在 标准 指令 模板 内 填写 一 系列 数据 (餐厅 名 ， 时 间 ， 
就 餐 人 数 ) 。 同 样 的 ， 一 个 电视 界面 可 能 只 需 某 个 电影 或 节目 的 规格 参数 就 能 决定 其 播放 的 
频道 并 在 屏幕 上 播放 。 

有 些 系统 有 高 度 的 系统 主导 性 。 它 要 求 完 整 具体 的 问题 来 对 号 入座 ， 并 且 期 待 回答 仅 限 
于 所 问 的 问题 。 例 如 ， 针 对 提问 “你 想 要 给 谁 打 电话 ?”， 如 果 可 识别 的 文本 匹配 得 上 一 个 
已 知 的 姓名 ， 数 据 库 搜索 可 以 填 上 这 个 电话 号 码 。 或 者 ， 针 对 问题 “你 的 航班 是 哪 天 的 ?”， 
一 个 常规 的 短语 就 会 被 用 来 匹配 用 户 表达 日 期 的 多 种 方式 。 


3.8.1 混合 主导 对 话 


根据 参考 文献 [56], Walker 和 Whitaker 指出 更 为 自然 的 交流 会 显示 出 混合 主导 性 。 在 
人 际 对 话 中 ，, 说话 人 可 能 会 提供 所 问 问 题 之 外 的 额外 信息 ， 或 让 听话 人 改变 当前 执行 的 任 
务 。 因 此 ， 能 够 在 混合 主导 设置 下 运行 的 对 话 系统 必须 对 提供 含有 限定 条 件 之 外 的 信息 话语 
有 所 准备 。 和 餐厅 系统 可 能 会 问 “你 想 在 哪里 吃 ?”， 此 时 若 用 户 仅 关注 了 时 间 ， 他 束 可 能 下 
答 “ 我 们 想 预 订 7 点 用 餐 ”。 该 回答 与 餐厅 预约 系统 内 的 其 中 一 个 问题 相关 ， 但 却 不 是 系统 
所 期 待 的 针对 该 问题 的 回答 。 这 就 要 求 一 个 NLU 组 件 能 够 对 更 为 复杂 的 输入 进行 解码 和 阅 
释 ， 而 不 仅仅 是 简单 直接 回答 的 短 句 。 

用 户 给 予 设 定 问 题 的 直接 回答 方式 当然 有 很 多 种 。 例 如 ， 用 户 可 以 就 问题 “你 想 在 哪 
里 吃 ?” 给 出 各 种 各 样 的 描述 餐厅 特点 的 回答 ， 如 下 第 一 列 所 示 : 




















































































































用 户 话语 预 设 - 填 值 对 
泰国 罗勒 名 字 :“ 泰 国 罗勒 ” 
一 家 印度 餐厅 菜 式 :“ 印 度 菜 ” 
一 家 在 圣 弗朗西斯 科 的 餐厅 地 点 :“ 圣 弗朗西斯 科 ” 
KA: “AKAK 
评级 :“ 米 其 林 星 级 














我 想 去 一 家 米其林 星 级 的 意大利 餐厅 吃饭 ， 在 圣 弗 朗 西 
斯 科 ， 明 晚 8 点 























地 点 :“ 圣 弗朗西斯 科 ” 
日 期 :“ 明 天 ” 
时 间 :“ 晚 上 8 点 ” 




















系统 需要 满足 一 个 能 够 对 应 某 个 特定 餐厅 的 高 级 预 设 , 但 尽管 所 提供 的 信息 来 自 低 预 
设 - 填 值 集合 ， 这 些 信息 仍 可 间接 缩小 可 能 的 选项 范围 。 要 注意 的 是 ， 应 答 可 能 按 不 同 的 顺 
序 给 出 ， 分 别 对 应 不 同 的 预 设 ， 表 现 出 语言 的 自然 变 体 。 最 后 一 个 表达 就 是 一 个 满足 了 多 个 
预 设 的 应 答 ， 且 应 用 了 相当 复杂 的 自然 语言 描述 。 目 标 预 设 往往 根据 特定 的 领域 进行 设 定 ; 
它们 通 党 在 后 端 数据 库 内 对 应 列 名 。 依 照 一 组 预 设 - 填 值 对 ， 应 用 逻辑 可 以 从 后 端 数据 库 中 
检索 结果 。 

NLU 模块 的 任务 是 把 第 一 列 的 话语 映射 到 第 二 列 的 预 设 推论 中 。 如 果 要 高 度 准确 地 确 
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定 含义 ，NLU 模块 就 必须 处 理 语言 表达 和 顺序 的 变化 。NLU 的 一 个 简单 策略 是 按照 填 值 满 
足 预 设 的 模板 样式 配对 话语 : 
询问 格式 模板 
泰国 罗勒 [名 字 ] 
一 家 中 国 餐 厅 一 家 [ER] 餐厅 
一 家 在 对 弗朗西斯 科 的 中 国 餐 厅 一 家 [地点] [KR] 餐厅 








在 此 简易 方法 中 ， 每 个 短语 都 要 求 有 自己 的 模板 。 更 为 复杂 的 格式 配对 会 使 用 常用 词 
组 、 去 情景 化 语法 ， 或 以 更 清晰 的 语言 形式 体系 来 编写 规则 ， 使 少数 的 规则 能 处 理 大 多 数 的 
变 体 。 但 不 管 怎 样 ， 这 些 方法 都 需要 解决 配对 中 的 语言 模糊 性 问题 。 

模板 或 规则 为 可 能 出 现 的 实体 或 关键 词组 提供 了 语 境 。 命 名 实体 识别 (NER) 任务 经 
常 是 一 个 单独 的 处 理 步 又 ， 它 能 挑选 出 可 识别 的 意向 实体 〈 如 例子 中 的 餐厅 名 字 和 莱 式 ) 
的 子 串 。 像 参考 文献 [57] 那样 的 机 融 学 习 途 径 通 常用 来 进行 命名 实体 检测 。 这 些 技术 已 
经 用 于 处 理 配 对 中 的 表达 变化 和 语义 收 义 ,但 是 它们 需要 大 量 的 话语 范例 与 正确 的 预 设 - 填 
值 对 组 合 。 组 合 好 的 话语 随后 被 转化 成 IOB 符号 ， 其 中 每 个 单词 都 分 到 了 以 下 其 中 一 种 
标签 : 




















标签 类 型 描述 
I 满足 预 设 (Inside a slot ) 
0 预 设 之 外 (Outside a slot) 
B 预 设 开始 (Begins a slot) 





I 和 B 标签 有 与 其 相关 的 预 设 名 。 一 个 经 过 IOB 标注 的 话语 范例 如 下 : 





IOB 标签 0 B 菜 式 0 0 B 地 点 I 地 点 
话语 一 家 意大利 餐厅 在 圣 弗朗西斯 科 























该 IOB 标注 的 话语 包括 了 为 训练 机 器 学 习 算 法 的 训练 数据 。 此 时 的 任务 可 以 看 作 是 一 
个 序列 分 类 的 问题 。 序 列 分 类 的 一 个 一 般 方法 是 单独 预测 序列 中 的 各 个 标签 。 对 每 个 单词 来 
说 ， 分 类 器 需要 把 基于 周边 单词 和 之 前 标签 的 特征 结合 起 来 ， 以 最 佳 估算 出 当前 标签 的 概 
率 。 一 个 在 概率 框架 内 合并 数据 的 可 行 方 法 是 条 件 最 大 烂 模型 ， 如 参考 文献 [58] 所 示 : 


1 
alb) = J oe 
plab) = z LI 


AP, a; Alb; AAE i ERAREMA AE fila, bi) 标明 了 从 有 效 语 境 中 抽取 的 
解码 信息 的 特征 ， 它 们 通常 包含 一 些 以 前 的 标签 、 当 前 的 单词 和 一 些 周边 单 词 。a 是 模型 
的 参数 ， 它 们 有 效 地 衡量 了 估计 概率 过 程 中 各 个 特征 的 重要 性 。 随 后 某 个 搜索 程序 (如 Vit- 
erbi) 会 被 用 来 寻找 最 大 概率 的 标签 序列 。 

针对 每 个 可 能 满足 预 设 的 回答 训练 数据 并 不 理想 。 而 且 ， 含 有 明显 单词 的 特征 并 不 会 直 
接 概 括 全 部 相同 的 单词 。 正 因 如 此 ， 机 器 学习 方法 常常 使 用 外 部 字典 。 若 一 个 单词 或 词组 在 
字典 中 是 已 知 值 ， 模 型 就 可 以 把 该 值 作 为 一 个 特征 。 参 考 文献 [57] 和 之 前 的 参考 文献 
[59] 一 起 共同 使 用 最 大 焕 模 型 来 合并 语 境 特征 以 及 来 自 外 部 资源 的 特征 ， 如 字典 。 总 的 来 
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说 ， 根 据 同 现 关系 统计 (如 参考 文献 [60] 所 示 ) ， 单 词 能 被 自动 分 级 ， 且 基于 这 些 分 级 单 
词 的 特征 能 够 改进 产生 的 模型 的 概括 能 力 ， 如 参考 文献 [61] 所 示 。 

最 近 的 神经 网 络 方法 如 参考 文献 [62] 尝试 利用 自动 生成 的 单词 与 连续 向 量 空间 的 配 
对 ， 假 定 相 似 的 单词 应 该 会 “相近 ”。 该 方法 内 的 特征 就 可 以 直接 使 用 这 些 向 量 表达 式 的 特 
定 坐标 了 。 

如 参考 文献 [63] 所 述 的 条 件 随机 场 (CRF) 是 另 一 个 序列 分 类 模型 ， 它 能 为 整个 标 
签 序列 生成 一 个 单一 概率 ， 而 不 是 每 次 一 个 标签 。 参 考 文献 [64] 是 CRE 应 用 于 命名 实体 
检测 的 一 个 例子 。 


3.8.2 ” 预 设 和 填 值 技术 的 局 限 


一 个 移动 助手 可 以 仅仅 依靠 NER 算法 找到 可 以 满足 行为 模板 的 答案 ， 就 能 成 功 地 执行 
诸多 任务 。 

填 值 作为 一 组 对 于 后 端 数据 库 内 元 素 的 单独 限制 ， 系 统 往 往 把 它们 的 连接 词 (如 ,“ 沫 
A: 意大利 ”和 “地 点 : 圣 弗 朗 西 斯 科 ”) 作为 一 个 附加 在 合理 输入 词 条 (“吉普 赛 人 私房 
菜 ”“ 巴 巴 可 ”) 上 的 限制 而 从 后 端 抽取 。 若 用 户 使 用 更 灵活 的 话语 或 更 概括 的 条 件 互动 ， 
则 该 基础 的 自然 语言 理解 形式 将 无 法 胜任 。 

思考 一 下 “一 家 有 现场 音乐 表演 的 意大利 餐厅 ”和 “一 家 没有 现场 音乐 表演 的 意大利 
餐厅 ”的 区 别 。 虽 然 都 提 到 了 相同 的 特征 ， 但 是 由 于 介词 的 不 同 ， 它 们 描述 的 是 完全 不 同 
的 两 类 餐厅 。NLU 必须 要 辨别 出 介词 表达 的 不 同 关系 ， 辨 别 出 “ 没 有 ”是 一 个 对 预 设 值 的 
消极 限制 ， 而 不 是 指 特定 的 餐厅 的 集合 。 诸 如 “有 ”或 “没有 ”等 修饰 语 以 及 其 他 介 、 连 
词 常常 在 传统 信息 获取 或 搜索 系统 中 被 视 为 无 用 词 ， 但 移动 助手 的 NLU 必须 要 格外 注意 这 
类 单词 。 

自然 语言 也 会 通过 话语 中 特殊 单词 的 顺序 来 设 定 意义 。“ 一 家 有 卖 好 红酒 的 意大利 餐 
厅 ” 并 不 会 与 “一 家 有 卖 意大利 红酒 的 好 餐厅 ”混淆 ， 虽 然 肯定 有 很 多 餐厅 都 能 符合 两 种 
描述 。 这 种 情况 下 ，NLU 必须 把 单词 的 顺序 转换 成 特定 类 别 的 语法 关系 或 相依 性 ， 并 要 考 
虑 到 英语 的 形容 词 通常 在 名 词 前 修饰 。 这 种 关系 在 以 下 的 相依 性 图 示 中 会 表现 得 更 为 明显 。 

图 3. 13 表明 了 依存 关系 分 析 器 
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宾语 


的 输出 ， 这 是 NLU 处 理 过 程 中 作用 于 修饰 语 ) (a y 修饰 语 





命名 识别 器 结果 的 一 个 环节 。 依 存 关 一 个 意大利 餐厅 有 ”一 份 好 的 红酒 酒 单 
系 分 析 器 检测 单词 之 间 的 意义 关系 ， S ARE 





如 该 例子 中 的 “意大利 ”就 是 “餐厅 ”的 修饰 语 ，“ 有 着 ”对 餐厅 加 以 限制 ， 最 后 “好 ” 
修饰 的 是 “红酒 ”。 

依存 关系 分 析 器 也 在 所 有 从 名 中 检测 关系 ， 查 找 一 个 事件 和 参与 人 以 及 他 们 的 具体 角 
色 。 图 3. 14 显示 的 主语 和 宾语 的 标注 限制 了 要 搜索 哈 利 被 罗 恩 所 救 而 不 是 相反 关系 的 电影 。 
编码 了 相依 性 的 语法 规则 可 以 非常 复杂 ， 而 且 诸 多 方面 重合 。 这 是 在 命名 实体 的 语义 模糊 识 
别 之 外 的 另 一 个 可 能 理解 ， 如 图 3. 15 所 示 。 
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[宾语 y 修饰 语 Y Y 主 语 1y 「 宾语 Y (Pia vy ( 宾语 y 











找 电影 里 we ko BA W 一 张 桌子 之 后 我 的 最 后 会 议 
图 3.14 相依 性 图 示 2 图 3.15 相依 性 图 示 3 

















按照 英语 的 语法 规则 ,“ 之 后 ”这 一 介词 短语 可 以 修饰 “预订 ”或 “ 餐 位 ”。 第 一 种 情 
况 的 理解 是 要 求 当天 晚 些 时 候 预 订 ， 在 会 议 之 后 。 第 二 种 可 能 性 更 大 的 理解 是 现在 应 该 就 完 
成 预订 ， 以 便 晚 些 时 候 能 有 位 置 。 依 存 关系 分 析 器 可 能 会 更 青睐 某 个 语法 规则 ， 但 最 可 能 的 
意思 是 结合 对 话 系统 中 其 他 可 参考 的 信息 ， 比 如 ， 在 一 个 能 考虑 到 特定 事项 模型 的 过 往 行 为 
或 一 般 餐 厅 预 订 规则 常识 的 AI 和 论证 模块 中 。 

机 器 学 习 方法 也 已 经 为 依存 关系 分 析 器 [$,%] 进行 了 定义 。 至 于 命名 实体 识别 ， 由 于 受 
到 标注 有 依存 关系 的 大 型 语料库 的 驱使 ， 该 任务 被 划分 成 一 个 分 类 问题 。 有 一 项 技术 会 考虑 
到 话语 内 所 有 单词 的 可 能 依存 关系 并 选取 有 最 大 化 扩展 项 的 概率 树 ， 即 训练 数据 评估 后 分 数 
最 高 的 依存 关系 集合 !9] 。 其 他 技术 则 从 左 向 右 逐 渐 处 理 句 子 ， 估 计 每 个 会 最 佳 配对 训练 数 
据 的 行为 点 !%] 。 这 些 行为 能 够 为 下 一 个 单词 引入 一 个 新 的 依存 关系 或 将 下 一 个 单词 暂 存 至 
一 个 栈 而 以 后 决定 。 

还 有 的 语法 分 析 器 通过 大 规模 手工 编写 语法 生成 依存 结构 或 其 相等 结构 [9 -21 。 它 们 根 
据 语 言 的 基本 理论 ， 通 常 得 出 含有 更 多 语言 学 信息 的 表达 式 。 而 且 ， 它 们 并 不 需要 构建 昂贵 
的 已 标注 语料库 ， 因 此 不 受 限 于 语料库 的 该 特征 。 但 是 ， 它 们 可 能 会 比 数据 统计 的 分 析 器 消 
耗 更 多 的 计算 资源 ， 而 且 要 求 更 多 的 语言 学 专业 知识 来 开发 和 维护 。 这 些 因 素 都 会 决定 哪 种 
分 析 模 块 在 特定 移动 设备 配置 中 更 有 效 。 

依存 结构 生成 了 连接 句子 中 各 个 单词 的 关键 语法 关系 。 但 是 想 让 系统 理解 单词 的 含义 并 
转化 成 正确 的 系统 执行 还 需要 进一步 的 处 理 。 许 多 单词 含有 NUL 元 件 需 要 识别 的 多 重 或 不 
相关 的 含义 。 鉴 于 移动 设备 能 执行 的 任务 的 能 力 ， 通常 只 能 执行 一 项 内 容 。 英 文 “book” 
这 个 动词 本 身 就 有 和 多重 含 义 (“预订 ”和 “关押 入 狱 ")， 但 是 对 于 预订 服务 设备 来 说 唯一 
的 可 能 就 是 第 一 项 含义 。 区 分 英文 单词 “play” 的 含义 则 要 多 下 点 功夫 : 

o HEFT (played) 塞 雷 娜 .威廉 姆 斯 ? 

© 谁 扮演 (played) 詹姆斯 邦 德 ? 

同样 的 单词 在 第 一 个 问题 中 表达 “ 打 比 赛 ”的 意思 ,在 第 二 个 问题 里 是 扮演 的 意思 。 
意思 的 选择 取决 于 宾语 的 类 别 。 若 宾语 是 一 名 运动 员 ， 则 第 一 种 含义 成 立 ; BRE Pa 
视角 色 ， 则 第 三 种 含义 成 立 。 去 歧义 处 理 取 决 于 命名 实体 识别 (查找 命名 ) 、 指 代 消 解 ( 查 
找 名 称 指 代 的 对 象 ) 、 语 法 分 析 ( 给予 对 象 语法 关系 )。 此 外 ， 去 歧义 还 取决 于 本 体 推 理 ; 
后 端 知识 元 件 知晓 塞 雷 娜 . 威廉 姆 斯 (Serena Williams) 是 一 名 网 球 运 动员 ， 网 球 运 动员 属 
于 运动 员 类 别 ， 该 类 别 只 和 表达 “ 打 ” 含 义 的 宾语 匹配 。 

去 歧义 的 推理 不 仅仅 依靠 查询 类 别 的 名 称 。 限 定 和 非 限定 描述 的 类 别 信息 也 同样 需要 用 
来 确定 含义 ， 比 如 : 

。 谁 打 (played) 赢 了 法 网 公开 赛 ? 
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o 谁 弹 的 (played) ERMEE? 

第 一 种 情况 需要 了 解 哪些 对 象 是 体育 赛事 的 参与 者 ， 即 运动 员 ; 第 二 种 情况 需要 知晓 什 
么 是 史 特 拉 第 瓦 里 (Stradivarius) ， 即 一 种 提琴 管 粥 乐器 。 随 后 该 信息 就 能 被 传人 一 个 从 本 
体 意 义 跨越 到 推理 演算 的 模块 ， 比 如 ， 提 做 是 发 声 物体 ， 进 而 与 “play” 为 “演奏 ”意义 的 
宾语 实现 匹配 。 

这 些 例子 适用 于 RDFSI2] ， 一 种 与 RDF 连接 的 小 型 本 体 语 言 ，RDF 是 “资源 描述 框 

架 ”[73] ， 代表 了 在 语义 网 (Semantic Web) 中 的 实体 对 象 的 简单 信息 。RDFS 许可 各 类 对 象 
的 表达 式 ( 塞 雷 娜 . 威廉 姆 斯 指 一 个 人 ， 也 指 一 名 网 球 运 动员 ) 、 此 类 别 的 概括 关系 ( 如 网 
球 运动 员 属 于 运动 员 ) 和 归 类 到 不 同 的 逻辑 关系 中 (“ 打 赢 ” 的 主语 是 人 ) 。 
去 歧义 也 会 需要 更 复杂 的 推理 链 ， 包括 组 合 多 个 对 象 或 描述 的 信息 。 这 些 更 为 复杂 的 情 
况 可 能 需要 功能 更 强大 的 本 体 语言 ， 如 W3C OWL Web Riki al], OWL 延展 了 RDFS 在 
定义 类 别 方面 的 能 力 (如 定义 一 个 人 是 男性 )， 并 提供 局 部 归 类 (如 一 个 人 的 孩子 是 人 )。 
本 体 推理 器 是 综合 知识 表达 式 和 推理 能 力 的 具体 案例 ， 它 们 不 仅 能 解决 更 为 隐 含 的 歧义 ， 而 
且 还 可 以 为 更 为 灵活 的 对 话 互动 ( 见 3.10.6 节 ) 进行 策划 和 推理 。 这 些 需 要 有 能 够 执行 更 
为 复杂 的 逻辑 演绎 任务 的 能 力 〈 比 如 一 阶 谓 词 逻 辑 ) ， 比 相对 简单 的 基于 本 体 的 推理 耗费 更 
高 的 运算 成 本 。 

用 户 输入 的 某 些 单词 可 能 会 根据 它们 的 语 境 取 义 。 指 代 会 话 中 前 述 对 象 的 代词 和 其 他 描 
述 就 属于 这 种 情况 。 大 系统 指出 一 个 满足 所 有 用 户 要 求 的 某 个 餐厅 ， 用 户 可 能 进一步 提问 
“ 那 有 不 错 的 红酒 吗 ?” 随 后 系统 必须 识别 (通过 一 个 名 为 回 指 消解 (anaphora resolution ) 
的 过 程 见 一 一 Mitkovt”]) 句 中 的 指示 代词 “那里 ” 指 的 就 是 该 餐厅 。 用 户 甚至 可 能 会 问 
“红酒 品种 怎么 样 ?”， 该 问题 没有 包含 明确 的 代词 ,但 还 是 能 理解 为 所 指 餐 厅 的 红酒 品种 。 
限定 描述 (“红酒 品种 ”) 和 指定 和 餐厅 的 联系 取决 于 本 体 意义 指出 的 该 餐厅 的 部 分 信息 和 
属性 。 

有 些 单词 和 表达 并 没有 涉及 会 话 中 前 述 的 对 象 ， 而 是 直接 指向 在 对 话 中 的 客体 或 发 生 的 
某 些 情况 。 指 示 代 词 (这 ， 那 ， 那 些 ) 和 其 他 所 谓 的 指示 词 ( 现 在 ， 昨 天 ， 这里， 那里 ) 就 
属于 此 类 。 如 果 对 话 发 生 在 用 户 开 车 的 时 候 ， 该 用 户 可 能 会 指向 某 个 餐厅 并 问 ,“ 那 家 餐厅 
有 好 的 红酒 吗 ?” 这 种 情况 的 对 话 系统 必须 识别 用 户 正 做 出 一 个 手势 指示 ， 辨 明 手 势 所 指 的 
是 一 家 餐厅 ， 并 向 NLU 元 件 提 供 信息 以 便 其 将 合适 的 对 象 信息 赋予 用 户 所 指 的 “ 那 家 ” 
餐厅。 

当 用 户 问 到 “这 附近 有 没有 什么 好 的 餐厅 ?” 或 者 “有 什么 在 接 下 来 一 小 时 内 会 播放 的 

影 吗 ?”， 其 他 方面 的 对 话 情 景 (如 当前 位 置 和 时 间 ) 必须 同样 考虑 在 内 。 这 些 例子 说 明 
了 对 话 系统 必须 能 够 管理 和 对 接 来 自 不 同 渠 道 的 多 模 态 信息 。 能 够 处 理 这 些 多 模 态 信息 并 使 
其 同步 化 的 是 一 个 由 W3C 本 体 语 言 建议 的 名 为 “可 扩展 多 模 态 注释 标记 语言 ” ( EMMA) 
的 工具 [751 。 
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3.9 ”多 轮 对 话 管理 


上 述 的 NLU 模块 形式 可 以 满足 单 轮 对 话 系统 的 需求 ， 即 用 户 交 流 在 单一 话语 结束 后 完 
成 。 但 在 多 轮 对 话 系 统 中 ，NLU 必须 在 问题 、 陈 述 和 行为 系统 的 场景 以 及 前 述 话语 中 理解 
用 户 指 示 。 这 需要 系统 能 够 识别 并 追踪 用 户 的 整个 对 话 意图 。 

把 用 户 意图 的 空间 分 成 对 话 意图 和 领域 意图 ! 7 是 一 个 有 用 的 方法 。 对 话 意图 表明 了 子 
对 话 想 要 阐明 、 纠 正 或 开启 一 个 新 的 话题 的 开始 ， 它 是 领域 独立 的 。 领 域 意 图 表明 了 用 户 想 
要 通知 系统 或 要 求 某 个 特定 的 系统 行为 。Young (1993) [71 的 研究 认为 ， 两 种 类 型 的 意图 都 
需要 建 模 并 通过 一 个 复杂 的 多 轮 对 话 过 程 追 踪 。 

有 一 个 意图 追踪 的 方法 叫 对 话 状态 追踪 '”] 。 每 个 用 户 的 话语 首先 由 NLU 模块 处 理 以 
(通过 分 类 ) 找到 对 话 意图 ( 告知、 询问、 纠正 ) 和 领域 意图 (播放 、 录 制 电 影 ， 预 订餐 
位 ) ， 并 从 话语 中 抽取 预 设 - 填 值 对 。 从 当前 话语 中 抽取 的 信息 (包括 模型 不 确定 性 的 概 
率 ) 反馈 到 一 个 动态 模型 (如 一 个 动态 贝 叶 斯 网 络 ) 中 作 观 察 用 。 然 后 根据 系统 在 当前 话 
语 前 的 信念 状态 ， 通 过 贝 叶 斯 信念 修正 来 移 除 或 减少 不 确定 性 。 















































系统 您 想 在 哪里 吃 ? 

HP 圣 弗朗西斯 科 的 一 家 意大利 餐厅 。 
系统 我 找到 几 家 圣 弗 天 西 斯 科 的 意大利 餐厅 
HP 其 实 我 更 想 在 今 晚 7 点 去 一 家 中 国 餐 厅 。 
系统 我 找到 在 圣 弗 朗 西 斯 科 的 几 家 中 国 餐厅 , CHT 点 它们 都 有 和 餐 位 。 它 们 是 …… 


















































在 这 个 例子 中 ,为 了 正确 理解 用 户 最 后 的 话语 ， 对 话 状 态 追 踪 器 区 分 了 具有 纠正 意图 的 
话语 并 和 覆盖 了 前 述 话语 中 提 到 的 菜 式 种 类 。 因 此 ， 该 系统 能 够 把 用 户 最 后 的 话语 中 提 到 的 菜 
式 、 日 期 和 时 间 预 设 与 其 最 初 提 到 的 地 点 信息 结合 。 这 样 的 系统 结构 颇具 吸引 力 ， 因 为 它 能 
够 处 理 语音 识别 产 出 /ZNLU 传递 途径 内 在 的 不 确定 性 和 歧义 。 

尽管 追踪 话语 意图 对 处 理 有 声 对 话 的 自然 流量 是 十 分 必要 的 ,但 是 识别 领域 意图 对 系统 
理解 用 户 的 最 终 目的 并 采取 措施 也 同样 不 可 或 缺 。 用 户 的 领域 意图 往往 很 复杂 ， 类 似 于 一 套 
以 自 上 而 下 的 方式 组 织 的 AI 方案 [9]。 因 此 ， 包 括 从 “与 或 ”任务 网 络 ![?] 到 概率 层级 
HMML8I 的 各 层级 结构 都 收 到 了 根据 复杂 意图 建 模 的 指示 。 尽 管 稳定 概率 建 模 也 会 在 预 设 和 
填 值 之 间 徘 徊 ， 但 对 复杂 的 意图 进行 稳定 概率 建 模 还 是 会 要 求 更 为 清晰 明确 的 、 能 结合 概率 
和 逮 辑 构建 的 表达 式 。 这 种 复合 建 模 方法 是 当前 AI 研究 的 活跃 领域 511。 

根据 对 话 状态 ， 系 统 必 须 调整 预期 并 找到 一 个 合适 的 回答 。 像 RavenClaw!*®! 这 样 的 对 
话 管理 器 已 经 用 来 引导 控制 流量 ， 使 系统 有 足够 的 提示 信息 而 得 以 完成 任务 。 对 话 管理 器 在 
混合 主导 场景 中 必须 使 用 NLU 模型 来 检测 任务 在 意外 的 对 话 时 点 发 生变 化 。 复 杂 的 对 话 还 
要 求 一 个 错误 矫正 策略 。 
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因此 ， 对 话 中 自然 语言 的 理解 需要 与 对 话 管理 策略 密切 合作 。 正 如 前 面 所 述 ， 话 语 复杂 
性 的 范围 可 以 从 完全 匹配 已 知 数据 列表 的 简单 单词 或 短语 ， 一 直 延 伸 到 提供 额外 信息 的 开放 
性 话语 ， 或 在 任意 时 点 命令 转换 任务 的 要 求 。 准 确 的 NLU 模块 综合 使 用 训练 数据 和 手动 设 
定 的 语言 材料 来 处 理 语言 变 体 ， 包 括 字 典 、 语 法 和 本 体 意义 。NLU 面临 的 其 中 一 项 挑战 是 
恰当 的 理解 话语 、 单 词 或 短语 的 不 完整 信息 。 如 果 系 统 刚刚 问 到 “您 想 什 么 时 候 出 发 ?”， 
“早上 9 点 ”的 回答 就 会 被 理解 成 在 机 票 预订 对 话 中 填写 的 起 飞 时 间 ， 而 预 设 “您 想 什 么 时 
候 到 达 ?” 则 针对 的 是 对 到 达 时 间 的 提问 。 对 话 管理 需 把 握 着 对 话 状态 并 能 提供 能 够 简化 曾 
释 话 语 碎片 任务 的 对 话语 境 信息 。 

早期 提出 的 一 个 与 NLU 元 件 交 流 语 境 信息 的 简单 建议 是 让 对 话 管理 器 预测 一 系列 的 语 
言 环 境 ， 从 而 能 够 帮助 NLU“ 理 解 ”用 户 的 下 一 组 话语 !8] 。 如 果 系 统 已 经 询问 : “您 想 要 
什么 时 候 离 开 ?” 那 么 对 话 管理 器 就 能 提供 陈述 式 的 前 缀 “我 想 在 …… 时 候 离开 ”， 以 拼接 
用 户 曾 述 的 任意 前 端 信息 。 如 果 用 户 的 回答 是 “早上 9 点 ” ， 则 在 连接 之 后 的 结果 就 是 一 个 
完整 的 、 可 阐释 的 和 有 意义 的 句子 一 一 按照 正常 的 语法 结构 来 说 。 在 一 个 混合 主导 的 场景 
中 ， 用 户 并 不 局 限于 给 予 系统 问 题 一 个 直接 或 最 简 的 回答 ， 因 此 话语 管理 器 能 够 提供 一 系列 
可 能 的 前 缀 并 期 待 其 能 够 涵盖 用 户 的 指令 : 

。 [我 想 ]“ 早 上 9 点 ”[ 离开] 

。 [我 想 在 ]“ 周 二 早上 9 点 ”|[ 离开] 

该 方法 的 主张 是 有 一 小 组 语 式 能 够 为 自然 的 、 有 意义 的 用 户 回答 提供 环境 ; 如果 用 户 针 
对 这 个 问题 回答 “波士顿 ”而 不 是 一 个 时 间或 日 期 这 对 机 右 乃 至 人 来 说 都 是 十 分 这 异 和 
费解 的 。 当 然 ， 用 户 可 能 会 选择 根本 不 回答 这 个 问题 并 提供 关于 旅行 的 其 他 信息 ， 或 设置 转 
向 另 一 个 任务 。 那 样 的 话 ， 上 自然 话语 将 是 一 个 完整 的 铅 子 ， 且 对 话 管理 器 可 以 根据 落空 的 语 
言 环境 做 出 预期 . 

。[ ]“ 我 想 坐 飞机 去 波士顿 ” 

这 是 一 种 对 话 管理 器 和 NLU 元 件 共同 合作 的 方法 ， 用 以 决定 用 户 下 一 话语 段 的 含义 。 
对 话 管理 需 能 够 根据 对 话 的 当前 状态 输入 预期 对 象 ， 通 过 一 种 能 够 简化 整体 系统 的 方式 传送 
给 NLU， 同 时 产生 更 为 恰当 的 对 话 行为 。 

NLU 的 输出 模块 能 提供 对 话 管理 器 需要 的 信息 ， 以 使 其 能 够 决定 用 户 的 意图 和 预期 
(比如 ， 寻 找 附 近 的 餐厅 ， 看 电影 ， 订 机 票 ， 或 仅仅 是 想 知 道 第 一 任 美国 总 统 的 信息 ) 。 对 
话 管理 器 还 能 考虑 到 系统 的 功能 〈( 比 如， 获取 地 方 电视 台 节 目 ， 操 纵 Netflix 上 的 视频 或 获 
取 实 时 交通 信息 以 及 导航 驾驶 ) 、 用 户 的 行为 和 偏好 ， 以 及 过 往 的 交互 体验 。 

如 果 用 户 的 意图 和 预期 得 到 满足 ， 系 统 就 仅 会 执行 合理 的 领域 活动 。 否 则 ， 其 任务 就 是 
按照 一 个 对 话 策略 [5 ， 找 出 “ 接 下 来 要 说 什么 "， 以 便 从 用 户 处 获得 更 多 信息 并 最 终 满 足 
用 户 的 需求 。 一旦 “说 什么 ”的 问题 得 以 回答 ， 自 然 语言 生成 (NLG) 模块 则 将 广泛 应 用 
并 能 够 回答 “该 怎么 说 ”的 问题 〈 即 决定 和 用 户 交 流 的 最 佳 方式 ) 。 

虽然 对 话 管理 器 是 如 此 根本 的 一 个 有 声 对 话 系统 的 元 件 ， 人 研究 和 运营 单位 对 其 的 定义 和 
功能 还 存在 不 同 的 理解 。 但 是 ， 人 们 一 致 认为 对 话 管理 器 应 该 至 少 包含 两 个 交际 系统 的 基本 
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方面 ， 即 追踪 对 话 状 态 和 决定 下 一 行为 。 

实施 这 两 种 功能 的 方式 有 许多 。 大 多 数 商 业 系 统 和 研究 单位 主要 依赖 于 某 些 形式 的 有 限 
状态 机 (FSM), A FSM 方法 要 求 对 话 中 的 每 个 变化 都 要 被 明确 地 表现 为 网 络 中 两 种 状 
态 的 转换 ， 并 假定 用 户 输 入 能 够 被 系统 提示 局 限 或 指挥 。 这 意味 着 对 话 管理 需 并 不 灵活 且 无 
法 处 理 突 发 的 情况 。 让 更 为 复杂 的 系统 采用 这 个 方法 并 不 现实 ， 因 为 它 不 得 不 完全 明确 在 每 
个 话 轮 的 所 有 可 能 选项 。 而 且 ， 这 种 方法 使 得 任何 程度 的 混合 主导 变 得 几乎 不 可 能 实施 。 

上 述 缺 点 导致 了 “功能 模型 ”方法 [5 -8] 的 问世 。 这 其 实 是 传统 PSM 的 拓展 。 传 统 
FSM 允许 有 限 状 态 机 启用 任 一 分 类 ， 旨 在 在 每 个 状态 实行 主观 决策 ， 并 对 过 渡 数 据 假 定 任 
意 复杂 的 先决 条 件 。 这 些 延 展 功 能 使 系统 能 够 接受 过 于 具体 的 用 户 话语 ， 这 些 话 语 以 混合 主 
导 的 形式 存在 。 相 对 的 ， 信 息 状 态 修改 法 :型 '%,21 使 用 框架 或 树 形 结构 作为 控制 机 制 ， 并 为 
意外 的 用 户 话语 留存 空间 。 但 是 ， 任 何 这 些 系统 处 理 的 对 话 都 通常 是 满足 预 设 值 的 类 型 。 系 
统 仅 会 在 指定 任务 的 某 个 参数 缺失 的 情况 下 询问 用 户 问题 。 

为 了 处 理 更 为 复杂 的 任务 ,包括 协作 解决 问题 、 智 能 助手 和 辅导 对 话 ， 对 话 系统 常常 与 
规划 技术 一 起 实施 !'% ,22] 。 最 近 ， 使 用 机 器 习 得 方法 (更 具体 来 说 是 强化 学 习 (RL) 法 ) 
的 数据 系统 已 经 成 为 当前 研究 的 重要 技术 。 这 些 方法 把 对 话 策略 建成 一 个 顺序 决策 过 程 模 
型 ， 称 为 “部 分 可 观察 马 可 夫 决策 过 程 ” (POMDP)。Frampton 和 Lemon (2009) 591 综述 了 
针对 在 有 声 对 话 系统 中 应 用 RL 技术 的 科研 进程 。 

这 些 方法 为 开发 人 员 提 供 了 精确 严谨 的 数据 导向 优化 模型 ， 而 不 是 依赖 于 专家 和 机 构 的 
策略 。 它 们 还 有 可 能 对 隐蔽 的 状态 进行 归纳 ， 对 未 知 的 情景 进行 调试 ， 但 由 于 需要 大 量 的 训 
练 数据 和 稳定 的 技术 来 构建 策略 优化 使 用 的 状态 空间 、 奖 励 功 能 和 目标 功能 ， 这 些 方法 也 饱 
受 诉 病 。 还 有 ， 对 于 如 何 使 该 系统 内 的 习 得 规律 获得 自然 用 户 的 本 能 理解 并 在 需要 的 情况 下 
加 以 修改 ， 这 一 点 的 认 知 是 广泛 缺乏 的 。 此 外 ， 解 决 POMDP 问题 的 复杂 性 往往 限制 了 对 话 
系统 表达 式 的 丰富 性 。 

最 新 研究 开始 关注 上 述 问 题 ， 比 如 使 用 分 层 的 RL 来 减少 状态 空间 的 大 小 [%] 。 另 一 项 
策略 就 是 从 一 个 小 的 数据 集合 来 学 习 一 个 模拟 的 环境 ， 使 其 能 够 使 用 RL 技术 而 无 需 广泛 的 
人 与 人 对 话 数据 !”] 。 

近 几 年 ， 有 声 对 话 系 统 的 商业 应 用 已 经 获得 了 大 批 用 户 的 青睐 ， 这 主要 得 益 于 其 在 移动 
设备 上 的 安装 运行 。 但是， 这 些 系统 仍然 缺乏 许多 重要 的 功能 。 它 们 非常 擅长 执行 某 些 基 于 
满足 预 设 条 件 的 对 话 ， 但 往往 不 是 重 返 至 一 般 网 络 搜索 ， 就 是 搜索 具体 领域 的 某 项 服务 
(和 餐厅、 电话 联系 人 、 电 影 )。 

目前 基本 不 存在 能 够 扩展 系统 行为 的 合作 筹划 或 解决 问题 的 能 力 ， 也 因此 无 法 处 理 复杂 
或 突 发 性 的 话语 ， 因 为 有 些 话语 需要 通过 与 用 户 进行 一 系列 灵活 的 、 多 话 轮 的 互动 才能 进 一 
步 港 清理 解 ， 提 炼 内 容 ， 需 要 考虑 到 对 话 发 生 的 情景 和 时 代 背 景 。 话 语 研 究 人 员 正 不 断 试验 
新 的 技术 和 系统 ， 以 期 能 够 在 更 广阔 的 领域 和 场景 支持 更 为 自然 有 效 的 对 话 中 介 行 为 。 随 着 
整合 机 器 学 习 、 人 工 智 能 和 推理 、 用 户 界面 设计 以 及 自然 语言 理解 的 新 技术 的 不 断 开发 ， 具 
备 上 述 功能 的 系统 将 在 不 远 的 将 来 出 现 。 
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3.10 ”规划 和 推理 








本 节 将 探讨 在 未 来 对 话 系统 开发 中 发 挥 越 发 重要 作用 的 深层 处 理 过 程 。 这 些 包 括 深 层 语 
义 分 析 ， 语 篇 表达 式 , 语 用 学 与 知识 的 表达 式 和 推理 。 下 面 首先 以 一 个 为 例 来 指出 技术 上 面 
临 的 一 些 挑战 ， 随 后 简要 概述 相关 领域 的 前 沿 发 展 。 


3. 10. 1 技术 挑战 


考虑 以 下 与 未 来 自动 虚拟 助理 (VA) 的 模拟 对 话 : 

(1) WPD: 最 后 一 次 会 议 之 后 在 “吉普 赛 人 私房 菜 ”预订 一 个 餐 位 ， 通 知 汤姆 和 布 莱 
恩 到 那里 见 我 。 

(2) VA: 不 好 意思 ,那里 直到 晚上 9 点 都 没有 位 置 了 。 你 想 让 我 帮 你 看 看 晚上 6 点 半 
附近 其 他 的 意大利 餐厅 吗 ? 

(3) MD: 你 能 找 一 下 哪 家 餐厅 有 不 错 的 红酒 吗 ? 

(4) VA:“ 巴 巴 可 ”有 一 个 位 置 。 它 在 金融 区 ， 但 是 去 那里 的 路 程 时 间 差 不 多 。 

(5) fH): 好 的 ， 就 那里 吧 。 

话 轮 (1) 在 预约 时 间 上 的 语义 是 模糊 的 : 预订 是 在 会 议 之 后 执行 还 是 现在 就 执行 ?9 模 
糊 消解 问题 需要 系统 建构 常识 : 预订 应 该 越 快 越 好 ， 和 否则 餐 位 可 能 会 被 占 满 。 自 动 的 假设 同 
样 需要 正确 阐释 这 次 交流 : 所 述 的 “最 后 一 次 会 议 ” 是 今天 的 最 后 一 次 会 议 而 不 是 昨天 的 。 

此 处 的 推理 是 一 次 对 一 般 交 际 规则 的 申诉 '%*i。 人 们 总 是 尽 最 大 的 可 能 交流 必要 的 信 
息 ; 若 一 个 人 想 预 订 明 天 的 晚餐 ， 他 就 应 该 会 将。 但是， 这 不 过 是 又 一 个 可 以 作废 的 假设 ， 
肯定 不 会 每 次 都 成 立 一 一 因为 该 对 话 之 前 已 经 讨论 过 明天 的 计划 了 。 同 样 ， 对 介词 短语 
“最 后 一 次 会 议 之 后 ”的 阐释 必须 要 以 同样 的 逻辑 处 理 ， 因 为 明天 或 当天 之 后 也 能 满足 该 
条 件 。 

当然 ， 以 上 关于 晚餐 计划 时 间 的 推理 只 是 估计 ; 日 程 编 排 器 需要 更 多 确切 的 信息 。 系 统 
当然 也 可 以 直接 询问 时 间 , 但 是 一 个 真正 有 效 的 助理 应 该 尽 可 能 地 努力 “满足 预 设 ”; 这 
里 ， 系 统 应 该 尝试 就 晚餐 的 最 佳 时 间 创 建 一 些 合理 的 期 待 值 。 为 了 这 个 目的 ，VA 可 以 尝试 
根据 过 去 的 行为 模式 来 进行 推理 ; 它 可 能 知道 鲍 勃 下 午 5 点 才 下 班 ， 而 且 他 通常 走 之 前 会 花 
30 分 钟 处 理 电 子 邮 件 。 这 些 信息 将 存储 在 一 个 包含 用 户 偏好 和 愿望 的 “用 户 一 般 行 为 模型 ” 
中 ， 如 后 面 所 述 。 此 外 ， 系 统 应 该 根据 任何 可 选 地 点 的 餐厅 考虑 行程 时 间 。 最 后 ， 汤 姆 和 布 
莱恩 的 号 份 必须 确认 。 同 样 的 ， 该 信息 将 能 够 存储 在 “用 户 朋 友和 联系 电话 模型 ”中 。 

值得 强调 的 是 ， 该 话语 表现 的 重要 原则 一 一 对 话 系 统 在 与 用 户 交 涉 时 必须 能 够 考虑 到 各 
种 可 能 的 情景 因素 。 这 些 因素 不 仅 包括 谈话 的 历史 记录 ， 如 前 面 所 述 ， 还 有 许多 对 话 内 容 之 
外 的 用 户 及 对 话 发 生 的 情景 。 正 确 的 系统 反应 根据 情景 的 不 同 而 变化 ， 如 日 期 ， 用 户 所 处 地 
点 ， 当 前 或 预期 的 交通 情况 ， 用 户 最 近 听 的 音乐 或 看 的 电影 。 对 话 系 统 必须 接收 和 盖 释 来 自 
各 类 不 同 的 传感器 信号 ， 并 保持 对 话 记 录 和 过 往 的 事件 、 行 为 等 。 
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在 话 轮 (2) 中 ， 我 们 看 到 对 餐厅 的 初始 搜索 达到 了 明示 要 求 但 没有 满足 暗示 预期 。 一 
项 诸如 “没有 ”或 “我 找 不 到 你 要 的 餐厅 ”的 敷衍 回答 显然 没有 什么 用 。 例 子 中 提供 了 一 
个 实用 且 有 效 的 回答 ， 简 单 解释 了 失败 的 原因 ， 然 后 系统 提出 另 一 项 建议 。 其 他 可 能 的 建议 
可 以 通过 放宽 一 些 次 要 的 限制 而 进行 查找 ; 在 该 例子 中 ， 和 餐厅 类 型 和 晚餐 时 间 的 条 件 被 放宽 
了 。 该 活动 应 由 对 话 管理 模块 负责 ， 指 导 系 统 和 用 户 共 同 许可 可 执行 的 限制 条 件 ， 同 时 尽 可 
能 获取 用 户 模 型 来 捕捉 相对 重要 的 条 件 。 

在 话 轮 (3) 中 ， 出 现 了 文献 所 指 的 “间接 言语 行为 "1”-”] ， 该 概念 将 在 3. 13. 3 节 中 
详细 解释 。 如 果 按 照 字 面 理解 ， 针 对 此 名 可 以 直接 回答 “是 ”或 “不 是 ”， 但 是 都 不 尽 人 
意 。 该 名 实则 是 一 个 执行 行动 的 间接 要 求 ， 该 命令 瞳 指 预订 餐 位 。 就 对 话 管理 而 言 ， 应 该 注 
意 到 用 户 自 己 已 经 间接 回答 了 话 轮 (2) 中 的 问题 。 此 处 再 次 违反 了 表达 简洁 清晰 的 一 般 交 
际 原 则 。 既 然 用 户 没有 不 同意 ， 也 就 意味 着 他 给 出 了 一 项 间接 的 确认 和 一 个 新 的 条 件 一 一 是 
否 有 不 错 的 红酒 。 这 些 限制 必须 要 在 某 个 时 点 加 以 集中 并 展开 搜索 。 这 就 需要 阐释 当前 话语 
时 考虑 到 前 述 话语 的 相关 限制 。 话 轮 (3) 意味 着 该 要 求 应 该 被 前 释 为 寻找 一 家 有 卖 好 红酒 
的 意大利 餐厅 。 此 时 ， 许 多 数据 库 和 网 页 可 以 执行 该 项 搜索 。 

随 着 对 话 进展 到 第 四 轮 ，VA 告知 用 户 它 已 经 解除 了 其 中 一 个 先前 的 限制 (“附近 的 餐 
T) 而 保留 了 其 他 条 件 ， 比 如 “相同 的 行程 时 间 ”“ 意 大 利和 餐厅 ”和 “ 今 晚 "， 这 是 通过 
启用 与 话 轮 (2) 一 样 的 处 理 过 程 实现 的 。 然 后 鲍 动 确认 了 话 轮 (5) 中 的 提议 从 而 使 对 话 
结束 。VA 现在 可 以 前 往 一 个 合适 的 网 页 来 预约 餐 位 并 给 汤姆 和 布 莱 恩 发 送 邀 请 了 。 但 是 ， 
得 力 助手 的 职责 还 没有 完成 。 它 必须 有 一 贯 且 前 摄 的 行为 ， 始 终 监 控 突 发 事件 〈 比 如 迟到 ) 
的 发 生 并 提供 最 大 可 能 的 帮助 。 

鉴于 存在 的 这 些 技 术 挑 战 ， 下 面 将 综述 文献 概述 的 最 为 常用 的 奉 干 解决 方案 。 


3. 10. 2 语义 分 析 和 语 篇 表达 


多 数 设 有 虚拟 助手 的 对 话 系统 都 需要 执行 一 般 性 的 行动 。 从 语义 和 语 篇 层次 的 分 析 来 
看 ， 有 一 种 方法 是 将 发 生 的 事件 具体 化 并 将 句子 结构 映射 到 一 阶 逻 辑 表 达 ， 表 达 式 中 的 恒定 
标记 代表 了 具有 多 种 属性 的 (如 “杀害 ”) 特定 事件 (如 肯尼迪 遭 枪击 ) 及 其 与 其 他 时 间 
的 联系 。 以 话 轮 (3) 的 话语 片段 “你 能 帮 有 我 找 一 家 餐厅 ”为 例 。 以 下 公式 能 够 表达 这 一 
转换 : 

Jel je2 了 Jx( SUTFACE request( el ,e2) N agent(el ,Bob) A agent( e2 find) A object(e2 ,x) A restaurant(x) ) 

这 可 以 说 成 是 el RRT EDETI WREAK ( 见 后 面 所 述 )， 且 该 请 求 是 关于 
e2 一 一 一 个 由 虚拟 助理 (有 时 又 称 个 人 助理 ) 执行 的 “查询 ”类 事件 。 查 询 事 件 的 对 象 是 
x*， 也 就 是 一 家 和 餐厅。 该 表达 式 的 优势 在 于 可 以 把 一 个 事件 的 额外 属性 通过 一 个 显 化 的 方式 
串联 在 一 起 : 比如 ， 可 以 添加 额外 的 条 件 ， 像 餐厅 是 意大利 的 : 意大利 (x)。 但 是 有 一 个 
问题 ， 从 逻辑 的 角度 来 说 ， 增 加 这 样 一 个 条 件 必 须 重 写 整个 公式 ， 因 为 限制 条 件 必 须 在 存在 
量词 的 范围 中 出 现 。 

语 篇 表述 理论 (DRT) 已 经 提出 了 一 个 解决 方案 ， 即 把 语 篇 演变 的 动态 模型 保存 在 能 
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够 扩 增 新 信息 的 结构 中 。 图 3. 16 展现 了 一 个 完整 话 轮 (3) 的 语 篇 表述 结构 CDRS). 图 
3. 16 的 方 框 内 列 出 了 一 组 对 应 变量 el 、e2、x 和 y 的 参照 标记 ， 接 着 是 含有 那些 变量 的 一 组 
条 件 。 该 结构 能 够 随 着 新 信息 的 出 现 而 扩 增 ， 然 后 根据 需要 被 转换 成 推理 所 需 的 一 阶 逻辑 形 
R (如 右 侧 所 示 ) 。 
el,e2,X,y 
表层 请 求 (ele2) 
行为 人 (e1, fuh) 
行为 人 (e2, 个 人 助理 ) 























找 (e2 ) 3el3e23x3y. 表 层 请 求 (el,e2)A 行 为 人 (el, MBN) 

餐厅 (9 和 行为 人 (e2, 个 人 助 更 A 找 (e2)A 餐 厅 (CO 和 宾语 (e2,x) 
宾语 (e2,x) AERJ (X Italian A F (x,t) A Ao Y) A SIH (Y) ATE) 
吃 的 (x, 意 大 利 ) 

FD 

有 (x,y) 

红酒 (y) 


KEY) 




















图 3.16， 语 篇 表述 结构 和 依据 “你 能 帮 有 我 找 一 家 有 卖 好 红酒 的 意大利 餐厅 吗 ?” 提 问 的 一 阶 逻 辑 陈 述 








3.10.3 语 用 学 


在 分 析 我 们 的 目标 用 户 一 一 虚拟 助理 交互 的 过 程 中 出 现 了 许多 语 用 学 问题 。 哲 学 家 
Grice °°! 以 精练 的 语言 概括 了 说 话 人 在 会 话 过 程 中 遵循 的 交际 法 则 。 这 些 法 则 描述 了 说 话 人 











提供 的 信息 应 该 : 
1. HS; 
2. 充分 (但 不 匈 余 ); 
3. 关联 ; 


4. E, AEE EER AE 

如 何 用 运算 方式 捕捉 这 些 原则 特征 当然 是 一 大 挑战 。 这 些 法 则 表达 的 是 最 佳 的 默认 行 
为 ， 而 行为 人 可 以 违反 ， 也 可 以 在 交际 过 程 中 执行 这 些 法 则 MW] 。 这 些 法 则 也 反映 了 语言 的 
效率 性 ， 即 交际 内 容 比 话语 内 容 要 丰富 得 多 。 如 在 例子 话 轮 (3) 中 ,话语 的 理解 需要 结合 
语 境 才 能 正确 地 识别 用 户 的 要 求 是 要 找 一 家 有 卖 好 红酒 的 餐厅 〈 在 计划 的 时 间 和 日 期 ) 。 

言语 行为 理论 的 应 用 也 是 语 用 学 的 一 个 核心 议题 。 关 于 此 理论 最 佳 的 解释 是 ,话语 是 能 
够 以 某 种 方式 改变 世界 的 行为 (具体 来 说 是 其 他 行为 人 的 信念 和 意图 ) ， 而 不 是 一 个 基于 事 
态 的 真实 值 。 以 我 们 的 虚拟 助手 为 例 ， 言 语 行为 必须 转化 成 VA 所 表现 出 的 为 用 户 服务 的 意 
图 或 承诺 。 意 图 往往 不 会 显 化 ， 于 是 必须 推测 。 上 述 例子 就 体现 了 一 个 需要 推理 的 交际 过 
程 ; 可 能 读者 并 没有 留意 ， 用 户 在 对 话 中 没有 在 任何 一 处 提 及 他 或 她 想 要 在 餐厅 吃 晚饭 。 这 
可 能 是 一 个 不 起 眼 的 细节 ， 但 如 果 虚 拟 助手 决定 要 在 一 家 仪 在 白天 提供 饭菜 或 仅 在 晚上 提供 
酒水 的 餐厅 ， 这 个 选择 就 灵 伯 难以 满足 用 户 的 需求 了 。 

在 话 轮 (3) 的 初始 DRS 中 , 话语 被 阐释 成 了 一 个 查找 餐厅 的 请 求 ,， 但 通过 “意图 识 
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别 ” 过 程 ， 该 请 求 被 转化 成 了 图 3. 17 所 示 的 结构 。 
这 体现 了 预订 餐厅 的 请 求 以 及 话语 实际 的 意图 。 计 
AE EAEE 过 2 名 进行 ere 请 求 (el,e2) 

划 识别 过 程 的 实施 从 查找 行为 开始 反 向 进行 ， 并 推 | tases FIAC PAM 
H: 如 果 用 户 想 找 餐 厅 ， 可 能 是 因为 他 想 去 餐厅 ， | WIE), 餐厅 0)， RHEL) 

而 他 想 去 餐厅 的 一 个 可 能 前 提 是 有 预订 的 餐 位 。 通 。 | MCRD, FC 

t A f i f 有 (x,y)， 红 酒 (Y)， 好 的 (y) 

过 虚拟 助手 的 帮助 ， 最 终 系统 收 到 了 为 用 户 预订 餐 

厅 的 任务 。 图 3.17 “你 能 帮 我 找 一 家 有 卖 好 红酒 的 
RT RATER MAH), Aas = BAAR RAMEE 
开发 的 概率 法 也 能 清晰 地 处 理 关 于 系统 理解 用 户 大 脑 思 维 的 不 确定 性 问题 [s] 。 


3.10.4 ”对 话 管理 协作 


目前 已 经 提出 的 管理 对 话 和 提供 帮助 的 方法 层出不穷 。 大 多 数 的 方法 都 是 基于 观察 到 的 
对 话 常 常会 包含 某 些 关联 任务 。 那 么 ， 一 个 对 话 就 是 一 次 两 个 行为 人 之 间 的 协作 活动 : 行为 
人 参与 任务 , 平等 互 换 信息 ， 从 而 能 使 双方 共同 完成 任务 。 主 要 的 方法 可 以 按照 以 下 方式 
BR 
© EAR: 互动 根据 预 设 好 的 任务 层级 〈 又 称 为 “任务 列表 ”) 被 追踪 和 管理 ， 有 时 
存在 明确 的 言语 行为 。 
。 规划 式 : 将 协作 建立 成 共同 规划 过 程 ， 该 规划 是 一 个 复杂 的 结构 ， 其 中 的 任务 列表 
不 需要 事先 制定 而 是 在 运行 时 构建 。 
。 学 习 式 : 尝试 习 得 对 话 互 动 原型 。 
我 们 将 展开 谈 一 下 规划 式 方法 ， 因 为 它 为 建构 协作 模型 和 支持 虚拟 助手 提供 了 有 效 
44 
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对 话 理解 的 规划 式 模 型 构建 了 一 个 行为 人 (无 论 是 自然 人 、 电 脑 系统 或 是 一 个 团队 ) 
的 信念 、 预 期 或 意图 。 无 须 考 究 哲学 内 涵 ， 此 处 只 要 把 信念 视 为 特定 情景 中 捕捉 到 的 用 户 持 
有 的 信息 就 足够 了 。 一 个 行为 人 的 想法 可 能 出 现 偏差 ， 但 虚拟 助手 的 责任 恰 是 要 检测 用 户 可 
能 持 有 的 错误 信息 (如 错误 地 认为 某 家 餐厅 在 城市 的 男 一 侧 ) 。 在 对 话 情景 中 ,行为 人 的 想 
法 可 能 涉及 最 为 明显 的 对 象 特点 或 正在 讨论 的 对 象 ( 如 我 要 去 的 “意大利 餐厅 ”是 “吉普 
赛 人 私房 菜 ”)。 

预期 能 够 反映 用 户 的 偏好 ( 比如 ， 比 起 中 和 餐 用 户 更 青睐 意大利 餐 ， 或 是 用 户 更 喜欢 在 
可 能 的 情况 下 走高 速 )。 意 图 体现 了 行为 人 的 责任 。 比 如 ， 系 统 可 能 负责 保证 用 户 按时 到 达 
预订 的 餐厅 。 因 此 它 会 一 直 监 控 用 户 在 实现 意图 之 前 的 进展 状态 。 

虚拟 助手 的 一 项 重要 任务 是 依靠 任务 目录 库 内 的 信息 ， 帮 助 用 户 分 析 用 户 已 经 交代 给 自 
己 的 高 层级 意图 或 规划 。 一 旦 规划 得 以 读 取 ， 生 成 的 一 组 潜在 选项 ( 如果 选项 多 于 一 项 ) 
就 能 被 分 析 ， 而 其 中 回报 (或 效用 ， 如 让 用 户 按 时 到 达 和 餐厅 ) 较 高 的 选项 将 会 被 选 为 行动 。 


3. 10.5 规划 和 再 规划 
规划 的 过 程 会 使 用 前 面 提 到 的 任务 列表 ， 该 表 会 为 其 他 执行 行动 的 方法 编码 。 在 我 们 的 
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模拟 对 话 中 ,假定 有 三 种 预订 餐厅 的 方式 去 “ 订 台 网 ”预约 ， 去 餐厅 主页 预约 ， 或 直接 
打 电 话 给 餐厅 。 然 后 用 户 和 系统 将 共同 在 那些 目录 中 填写 信息 或 以 某 种 方式 列举 。 每 个 行为 
人 都 有 互补 的 能 力 和 职责 。 接 下 来 ， 对 话 将 记录 下 各 方 为 推进 目标 的 实现 而 做 出 的 贡献 。 

任务 列表 包括 对 各 个 组 成 节点 的 逻辑 限制 。 它 们 可 以 是 预 设 完 毕 并 针对 某 个 特定 目标 的 
深层 结构 ， 或 是 可 以 在 策划 过 程 中 构建 的 浅 层 分 解 。 图 3. 18 展示 举例 中 关于 后 者 的 几 个 例 
子 。 从 这 些 元 素 中 构建 一 个 复杂 结构 能 够 增强 系统 的 灵活 性 ， 以 应 对 在 规划 过 程 中 的 突 发 
事件 。 





























预定 餐 位 查找 餐厅 查询 时 间 ”查找 推荐 查找 预定 


! MW J Ss l 


查找 餐厅 查询 时 间 预定 来 自用 户 ”查找 推荐 ”查找 网 站 ”查找 候选 餐厅 ”比较 TA 
图 3.18 目录 结构 





3.10.6 知识 呈现 与 推理 


系统 内 的 各 种 知识 ， 比 如 餐厅 类 型 、 行 程 时 间 、 酒 水 和 和 餐厅 菜单 等 都 存储 在 知识 表达 式 
中 。 一 阶 逻 辑 作为 一 个 非常 清晰 的 知识 表达 式 ， 仅 是 诸多 选项 中 的 一 种 。 为 了 方便 处 理 ， 其 
他 逻辑 还 包括 基于 本 体 意义 描述 的 与 “语义 网 ”有 关 的 各 个 逻辑 。 这 些 对 区 分 单词 含义 有 
特别 显著 的 效果 ， 这 在 3. 8. 2 市 中 已 经 探讨 过 。 在 某 些 情况 下 ， 时 间 关 系 、 默 认 知 识 和 限制 
条 件 可 能 会 需要 专业 知识 表达 式 ， 而 这 些 可 能 需要 专业 的 推理 器 。 

纵 观 本 节 ， 我 们 一 直 在 讨论 用 户 偏 好 模型 。 仿 好 与 行为 人 的 预期 直接 相关 。 侦 好 可 以 由 
用 户 提 供 ， 由 虚拟 助理 检测 ， 或 是 通过 观察 获得 。 这 些 偏好 可 以 通过 定性 法 表达 ， 或 者 通过 
按照 功效 的 定量 法 表达 。 比 如 ， 我 们 可 能 有 一 个 简单 的 用 户 模型 陈述 用 户 喜 欢 毕 效 咖 啡 。 但 
是 ， 更 好 的 陈述 可 能 是 含有 比较 关系 的 表达 ， 比 如 比 起 星巴克 更 喜欢 毕 效 。 这 些 又 叫 “ 其 
他 情况 不 变 ” 偏 好 ， 因 为 它们 主要 用 来 获取 其 他 条 件 不 变 的 情况 下 的 一 般 性 数据 。 但 是 例 
外 的 情况 需要 处 理 。 比 如 ， 比 起 美国 滴 滤 咖啡 ， 有 人 可 能 更 喜欢 浓 咖 啡 ， 从 这 里 可 能 得 出 的 
结论 是 这 个 人 更 喜欢 星巴克 而 不 是 有 着 故障 咖啡 机 的 毕 兹 ， 这 就 是 例外 条 件 。 由 于 这 些 偏好 
均 从 用 户 身 上 获取 ， 因 此 必须 检查 它们 的 一 致 性 ， 因 为 用 户 可 能 突然 提 到 相反 或 不 一 致 的 偶 
好 。 如 果 如 此 ， 系 统 应 该 与 用 户 通过 对 话 交 谈 以 解决 该 问题 。 


3.10.7 监控 


我 们 延续 上 述 情景 如 下 : 

(1) [VA 注意 到 已 经 是 下 午 5 点 半 了 ， 而 鲍 勃 还 没有 离开 办 公 室 ,这样 他 无 法 按时 到 
达 餐 厅 。MA 通过 TTS 打 电 话 给 鲍 勃 。] 

(2) VA: 鲍 勃 ， 你 要 迟到 了 。 我 应 该 变更 预订 时 间 吗 ? 

(3) GHD > 行 。 我 大 概 30 分 钟 以 后 出 发 。 

(4) [VA 重新 规划 : 巴巴 可 晚 些 就 没有 位 置 了 。 根 据 餐 厅 偏 好 ，VA 在 男 一 家 类 似 的 餐 
厅 执 行 了 预订 。] 
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(5) VA; 巴巴 可 无 法 保留 你 的 餐 位 ， 所 以 我 在 卡 帕 尼 纳 帮 你 预订 了 一 个 餐 位 。 它 们 的 
红酒 不 错 。 我 会 告知 汤姆 和 布 莱 恩 。 这 样 行 吗 ? 

(6) fey: 可 以 ， 谢 谢 。 

(7) [VA 发 信息 给 汤姆 和 布 莱 恩 ， 重 新 建立 监控 ] 

在 之 前 的 情景 结束 时 ，VA 实施 了 监控 (有 条 件 意图 ) 来 确保 计划 能 够 顺利 完成 ， 这 包 
括 餐 厅 的 选择 、 预 订餐 位 和 出 席 晚餐 。 该 意图 是 相对 于 VA 的 信念 。 有 条 件 意 图 应 该 在 每 一 
个 步骤 都 检查 ， 观 察 其 是 否 受 到 某 些 变化 因素 的 影响 。 在 这 个 例子 中 ， 如 果 VA 逐渐 认为 鲍 
勃 没有 在 预计 时 间 结 束 会 议 ， 那 么 它 就 应 该 建立 起 需要 重新 规划 预订 活动 的 意图 。 

在 接 下 来 的 情景 中 ， 上 述 猜测 果然 发 生 了 : VA TER SIMA BHA, ERAT 
餐厅 并 发 现 预 约 无 法 延长 。 因 此 ， 基 于 互助 的 合作 关系 ， 基 于 饱 勃 对 晚餐 的 要 求 和 他 的 偏 
好 ， 它 开始 寻找 其 他 餐厅 : 餐厅 的 地 址 、 菜 肴 的 类 型 和 红酒 。 它 找到 了 一 个 替代 对 象 : 卡 帕 
尼 纳 。 虽 然 没有 在 同一 个 区 域 , 但 是 行程 时 间 相 同 。 它 于 是 舍弃 了 地 点 的 限制 条 件 ， 继 续 执 
行 任务 ,预约 了 和 餐 位 并 通知 布 莱 恩 和 汤姆 最 新 的 变更 。 


3.10.8 推荐 阅读 文献 


本 节 仅 粗略 综述 了 相关 的 研究 领域 。 有 兴趣 的 读者 可 以 在 以 下 参考 文献 中 获取 补充 
信息 。 

(1) Davis (1990) (1!) 很 好 地 梳理 了 常识 推理 、 一 阶 罗 辑 和 诸如 物化 和 其 他 事件 表达 式 
等 技术 。 此 外 ， 一 年 两 次 举行 的 “常规 推理 逻辑 范式 ”大 会 会 刊 将 为 读者 提供 该 领域 的 最 
新 发 展 [101] 。 

(2) Kamp 和 Reyle (1993 ) (103) 以 及 Gamut (1991) 4) 2A 7 DRT 技术 。 一 个 相关 的 
方法 是 分 段 语 篇 表达 式 理 论 (SDRT)L%1, 语 用 学 领域 的 介绍 可 以 参考 Levinson 
(1983) (1°) ， 包 括 对 格 莱 斯 会 话 法 则 的 详细 讨论 !%] 。 言 语 行为 理论 详 见 参考 文献 [97，99] 。 
规划 识别 主题 的 年 度 会 议 期 刊 对 其 他 方法 进行 了 很 好 的 综述 。 

(3) 关于 知识 表达 式 领域 的 介绍 详 见 参考 文献 [107, 101]; 该 领域 内 包括 默认 推理 技 
术 等 更 新 的 发 展 详 见 年 度 KR 会 议论 文集 i1”]。 参 考 文献 [107] 讨论 了 关于 偏好 表达 式 的 
效用 理论 。 已 经 开发 了 一 系列 用 于 表示 偏好 的 工具 [591 。 

(4) 关于 对 话 处 理 规划 式 方 法 的 原创 论文 包括 参考 文献 【111，112]。 对 话 处 理 的 信息 
式 方 法 详 见 参考 文献 [113 ] 。 对 话 处 理 技术 近期 的 发 展 详 见 参考 文献 [114] 。 







































































3. 11 ”问题 解答 








在 与 上 述 虚 拟 助手 互动 的 过 程 中 注定 会 出 现 一 些 普 遍 问题 。 例 如 ， 用 户 可 能 会 问 :“ 这 
附近 是 否 有 素食 餐馆 ?”， 从 而 决定 在 何 处 订餐 。 回 答 这 个 问题 只 需要 系统 执行 找到 相关 信 
息 的 任务 行为 ,但 是 这 类 的 问答 (QA) 互动 是 制定 和 优化 任务 的 重要 组 成 部 分 。 

问题 解答 作为 独立 的 任务 有 很 长 的 历史 ， 经 历 了 自然 语言 界面 到 数据 库 的 转变 555] ， 再 
到 支持 智能 分 析 !255] ， 乃 至 最 近 IBM 的 Watson/DeepQA 系统 可 以 成 功 地 在 “危险 边缘 ” 问 
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答 游 戏 中 胜 过 人 类 冠军 1 但 如 上 所 述 ， 间 答 在 更 广泛 的 口语 对 话 应 用 中 扮演 一 个 自然 的 
角色 。 例 如 ， 一 个 用 户 可 能 想 要 在 预约 吃饭 时 间 之 前 问 到 电影 开始 的 时 间 ， 或 者 系统 可 能 自行 
决定 它 需 要 这 个 信息 ， 以 此 来 核对 用 户 的 时 间 选 择 是 否 和 他 的 其 他 计划 相 冲 突 。 成 功 的 回答 一 
个 问题 需要 在 关键 步骤 中 涉及 所 有 的 自然 语言 内 容 (识别 、 句 法 分 析 、 含 义 以 及 推理 ) : 

。 问题 分 析 : 提问 人 想 知道 什么 ? 

。 定位 与 问题 相关 信息 。 

© 确定 答案 以 及 答案 的 证 据 。 

。 提交 答案 信息 给 提问 人 。 

这 些 步 又 必须 要 依照 提问 人 的 需要 、 偏 好 和 生活 来 对 意义 和 回答 进行 导向 。“ 还 有 时 间 
去 看 电影 么 ?” 这 样 的 问题 要 求 了 解 提 问 人 的 日 程 。 


3.11.1 问题 分 析 


问题 分 析 可 能 不 止 与 确认 问题 内 容 有 关 ， 而 且 会 涉及 问题 提出 的 原因 。“ 这 儿 附 近 是 否 
有 提供 素食 的 餐馆 ?” 技 术 上 是 一 个 是 非 问题 ， 但 应 提供 的 有 用 信息 应 该 是 列 出 合适 餐馆 。 
“有 用 答案 ”取决 于 提问 人 的 意图 (如果 他 们 只 想 要 确认 上 一 条 信息 ， 那 么 “是 ”就 是 合适 
回答 ， 而 无 需 对 信息 全 部 描述 )。 确认 提问 人 的 意图 取决 于 对 话 内 容 、 领 域 和 对 世界 的 知识 
(此 情况 下 ， 需 要 了 解 提 问 人 的 地 址 ) 。 

问题 分 析 通 常 要 确认 问题 中 关键 项 和 其 之 间 的 关系 。 关 键 项 (实体 ) 通常 是 名 词 ， 而 
关系 则 可 以 是 主要 谓语 (提问 者 意图 的 主要 信号 ) 或 对 答案 起 到 限定 。 例 如 ,对 于 “这 附 
近 是 否 有 素食 餐馆 ?” 这 一 问题 ， 意 图 就 是 符合 提供 素食 的 限定 ， 且 距离 提问 者 当前 地 址 较 
近 的 餐馆 列表 。 此 处 ,“ 和 餐馆 ” “素食 ”和 “这 ”是 三 个 实体 。 

一 般 的 简单 问题 可 以 通过 制定 句 型 (“< 事件 > 的 时 间 ?”) 来 解决 , 但 是 这 种 办 法 无 法 
满足 各 种 变化 较 多 和 不 太 和 常见 的 语言 句 型。 语法 分 析 ( 见 3.8.2 节 ) 是 常见 方法 ,但 语言 
微妙 处 的 构建 很 难 准确 分 析 ， 因 此 通常 需要 用 数据 实体 和 意图 检测 来 补充 (IL 3.8.1 节 )。 
已 知 实 体 的 词典 (例如 电影 明星 名 单 ， 药 品名 ， 书 籍 标题 ， 政 治 人 物 等 ) 也 可 以 有 效 定位 
各 种 常见 实体 ， 尤 其 对 于 特定 领域 。 


3.11.2 寻找 相关 信息 


一 旦 确定 了 意图 和 实体 ， 我 们 便 去 找 与 意图 相关 的 信息 。 例 如 ， 对 于 “这 附近 是 否 有 
素食 餐馆 ?”， 我 们 可 以 寻找 餐厅 的 数据 库 ， 依 照 提 问 者 位 置 寻找 商务 黄页 ， 或 进行 一 般 互 
联网 搜索 。 从 这 些 结果 中 ， 我们 可 以 编辑 符合 限定 的 (“菜单 上 有 素 餐 ” 且 “ 在 当前 位 置 附 
W”) 餐馆 列表 。 

有 些 信息 仅仅 存在 于 固定 结构 的 形式 中 (表格 或 数据 库 ， 例 如 棒球 队 史 上 和 运动员 信 
息 ) ， 而 其 他 种 类 的 信息 仅仅 存在 于 非 固定 结构 的 形式 中 ( 自然 语言 文档 ,例如 电影 情节 概 
要 )。 获取 固定 结构 的 信息 需要 精确 的 问题 分 析 (提问 者 或 许 不 了 解数 据 库 设计 者 如 何 创建 
字段 名 /域名 ， 因 此 问题 分 析 需 要 将 问题 的 语义 映射 到 数据 库 字 段 ) 。 而 通过 搜索 (在 因 特 
网 或 在 特定 源 文 件 中 ) 获取 非 固定 形式 信息 要 求 的 精度 相对 低 ， 但 会 导致 产生 更 多 潜在 回 
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答 ， 因 此 更 难 选择 正确 的 答案 。 
3.11.3 解答 与 依据 


大 多 对 问答 的 研究 关注 “事实 陈述 型 ”回答 ， 这 种 回答 简要 地 涵盖 于 某 个 文档 的 单一 
位 置 (例如 秘鲁 首都 是 哪儿 ?“ 利 马 是 秘鲁 首都 ")。 而 对 于 非 事实 陈述 型 的 回答 研究 较 
AUIS) ， 尤 其 是 回答 所 需 依 据 来 自 多 处 的 情况 〈 例 如 ， 同 一 文档 中 不 同 部 分 的 文字 段落 、 不 
同文 档 中 的 文字 段落 、 结 构 化 数据 和 未 加 工 文本 的 组 合 ) 。 

支持 事实 陈述 型 和 非 事实 陈述 型 回答 的 依据 ， 可 能 因为 用 户 问题 语言 不 同 而 变化 巨大 。 
这 个 问题 引起 了 近来 对 于 掌握 释义 信息 来 驱动 文本 推理 方面 的 研究 兴趣 0?1 。 非 事实 陈述 型 
回答 在 针对 内 部 复杂 结构 问题 时 (天 为 什么 是 蓝 色 的 ， 但 在 早晨 和 傍晚 又 常 是 红色 的 ?) ， 
或 在 针对 简单 问题 提供 高 质量 回答 时 〈 何 时 我 可 以 在 胭脂 咖啡 厅 订 桌 : 如 果 是 两 人 桌 ， 则 在 
晚上 7 点 钟 ， 一 张 四 人 桌 则 在 晚上 7 点 羊 ， 四 人 以 上 桌 则 在 晚上 8 点 半 ， 或 者 今天 胭脂 咖啡 
厅 不 营业 ) 会 出 现 。 


3.11.4 呈现 答案 


集 齐 回答 所 需 的 依据 后 ， 系 统 必 须 找到 一 种 方法 将 答案 呈现 给 用 户 。 这 关系 到 如 何 策略 
性 地 确定 呈现 多 少 依据 ， 以 及 技巧 性 地 决定 如 何 呈 现 出 最 好 形式 [2 。 这 些 决 定 的 做 出 依赖 
回答 媒介 〈 手 机 屏幕 上 的 话语 、 文 字 ) 提供 信息 。 然 而 ， 对 于 对 话 应 用 中 植 入 的 问答 ， 青 
景 目标 (谈论 中 的 问题 ) 对 于 策略 决定 有 巨大 影响 。 在 产生 自然 语言 的 策略 层面 ， 分 散 的 
文章 篇 章 需 要 以 连贯 自然 的 方式 拼接 在 一 起 。 而 结构 性 数据 的 自然 语言 回答 必须 从 数据 中 获 
取 或 者 通过 文本 搜索 来 确定 能 够 呈现 和 支持 问题 的 文本 片段 。 

由 于 机 融 学 习 系 统 能 够 从 对 其 行为 的 反馈 中 潜在 得 益 和 改进 ， 因 此 捕捉 用 户 对 系统 信息 的 
反馈 是 十 分 必要 的 。 但 是 ， 如 果 给 出 的 反馈 太 过 不 自然 和 唐 突 (例如 只 是 通过 喜 欢 /不 喜欢 回 
答 表 示 ) ， 那 么 机 顺 学 习 就 可 能 不 会 成 功 。 相 反 ， 应 该 检测 一 些 反 应 成 功 和 失败 更 细致 的 线索 
作为 反馈 内 容 (例如 ， 用户 重 复 /重新 表达 问题 ， 放 弃 任 务 ， 完 成 任务 所 需要 的 步骤 数 [2 ) 。 

































































3.12 分布 式 语音 交互 架构 


对 于 执行 上 节 所 述 任务 ， 用 户 对 各 类 操作 设备 抱 有 越 来 越 高 的 期 待 。 尽 管 这 些 设备 的 显示 
形态 因素 和 处 理 需 能 力 各 不 相同 ， 但 都 具有 同样 强大 的 局 部 计算 和 显示 能 力 ， 并 且 都 能 够 连接 
网 络 。 用 户 对 于 跨 设 备 〈 智 能 手机 、 平 板 电脑 、 超 级 本 、 汽 车 、 可 穿戴 设备 和 电视 机 之 间 ) 的 
操作 统一 性 和 互动 连续 性 的 期 待 也 有 所 增加 。 例 如 ， 用 户 可 以 从 他 们 的 智能 手机 、 手 表 或 眼镜 
上 询问 “ 凯 尔 特 人 队 的 比赛 结果 如 何 ?”， 并 在 其 到 家 后 命令 智能 电视 “播放 这 场 比赛 ” 。 

要 达成 这 样 的 连续 功能 和 互动 模式 ,语音 界面 的 框架 需要 能 够 跨 设备 、 跨 云端 灵活 操 
控 。 这 使 设备 的 计算 能 力 、 可 用 性 (联网 不 成 功 的 情况 下 ) 和 延迟 都 得 到 了 优化 ， 并 实现 
了 用 户 个 人 喜好 和 互动 历史 的 跨 设 备 应 用 。 为 解决 “播放 这 场 比 赛 ” 这 个 指令 ， 电 视 交 互 
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界面 将 会 获得 云端 用 户 档案 和 对 话 历史 ,使 用 期 间 引 用 这 些 信息 ， 并 在 进程 完成 后 上 传 到 服 
务 器 ， 从 而 让 用 户 在 与 其 互动 的 下 一 个 设备 中 也 可 使 用 这 些 信息 。 


3.12.1 分 布 式 用 户 界 面 


如 电话 、 电 视 机 等 设备 通常 可 以 作为 其 他 移动 设备 的 枢纽 使 用 ， 这 些 移 动 设备 运算 能 力 
较 低 ， 但 可 以 给 用 户 提 供 更 有 效 更 直观 的 界面 ， 补 充 或 代替 枢纽 设备 的 用 户 界 面 。 例 如 ， 智 
能 手机 可 以 链接 智能 眼镜 、 手 表 ， 或 者 无 线 耳 麦 ， 从 而 把 用 户 和 设备 之 间 传 输 信息 的 任务 发 
布 出 去 ， 使 得 这 些 外 围 设 备用 起 来 更 高 效 、 自 然 、 顺 手 。 

3.8.2 市 中 讨论 过 ， 多 样 化 的 模 态 可 能 会 重合 和 互补 。 假 设 用 户 输入 导航 目的 地 后 ， 设 
备 显 示 出 一 张 标识 出 所 有 名 为 “春田 ”的 小 镇 地 理 位 置 图 。 用 户 手 指向 正确 的 目的 地 ， 并 
确认 “这 个 ”。 通 过 手势 识别 可 以 确认 目标 的 位 置 ， 而 使 用 语音 命令 来 表达 指令 的 性 质 以 及 
测定 手指 指示 的 时 刻 。 

这 些 设备 生产 商 争 相 为 自己 的 平台 占据 市 场 主导 地 位 ， 导 致 用 户 每 天 都 要 分 配 自己 的 注 
意 力 来 与 不 同 的 设备 交互 。 这 就 增进 了 对 “可 移动 ”体验 的 需求 ， 即 追求 在 功能 、 互 动 模 
式 、 用 户 偏 好 以 及 与 不 同 设备 的 互动 历史 方面 的 连续 性 。 

一 份 通用 型 的 设备 用 户 档案 将 很 快 成 为 必 不 可 少 的 信息 。 该 存储 的 档案 将 包含 用 户 本 人 
的 基本 情况 ， 例 如 喜欢 的 音乐 风格 或 新 闻 类 型 ， 短 期 使 用 的 诸如 航线 和 酒店 预订 等 相关 信 
息 ， 还 有 语音 识别 的 相关 信息 ， 如 声学 模型 。 

设备 使 用 声音 生物 计量 来 识别 用 户 ， 获 取 基 于 服务 器 的 用 户 档案 ， 使 用 期 间 更 新 这 些 信息 ， 
并 在 进程 完成 后 上 传 到 服务 器 ， 从 而 让 用 户 在 与 其 互动 的 下 一 个 设备 中 也 可 使 用 这 些 信息 。 

用 户 可 能 用 智能 手机 搜索 餐馆 位 置 ， 这 一 行为 就 会 被 存储 在 他 /她 的 用 户 档案 中 。 此 后 ， 
在 一 台 有 较 大 屏幕 的 台式 电脑 上 ， 他 /她 可 以 选择 一 个 地 点 。 上 了 他 /她 的 车 后 ， 这 个 位 置信 
息 就 会 被 车 载 导 航 通过 用 户 档案 提取 出 来 。 同 时 ， 因 为 最 近 对 话 的 语 境 可 以 通过 用 户 档案 调 
出 ， 只 需 一 句 “ 开 去 餐馆 ”这 样 简 单 的 指令 就 足够 指引 导航 系统 了 。 

在 这 个 模型 中 ， 人 机 界面 设计 不 再 肾 焦 于 任何 特定 机 融 的 互动 。 机 器 的 角色 变 成 了 第 二 
位 的 ， 它 成 为 了 链接 用 户 与 数据 和 服务 的 通用 多 设备 策略 的 许多 实例 之 一 。 

这 种 抽象 界面 的 常见 构建 就 是 “虚拟 助手 ” ， 它 可 以 链接 用 户 与 信息 和 服务 。 这 样 的 助 
手 可 利用 基于 服务 器 的 用 户 档案 ， 其 中 集合 了 用 户 喜 欢 的 所 有 设备 上 的 相关 资料 。 助 手 的 具 
体形 式 可 以 是 拟人 的 ， 以 此 展现 出 相同 的 TTS 声音 、 说 话 方式 和 视觉 外 观 ， 从 而 确保 跨 设 
备 对 话 能 够 形成 连续 的 个 人 化 体验 。 用 户 不 再 关注 与 硬件 的 互动 ， 而 是 直接 或 通过 虚拟 助 
手 ， 转 向 与 所 需 的 信息 进行 对 接 。 互 动 模式 从 使 用 “人 -机 ”界面 转向 “人 -服务 ”界面 。 

正如 用 户 界面 可 以 通过 多 种 互动 环节 分 布 到 多 种 互动 设备 上 ， 不同 的 服务 也 可 以 通过 多 
种 设备 和 资源 分 布 。 同 样 的 ， 硬 件 可 以 转移 成 为 用 户 界面 群 功 能 和 数据 的 后 台 ， 这 个 分 布 过 
程 依照 的 是 领域 ， 而 不 是 设备 。 

考虑 如 下 元 素 : 一 款 自 动 音乐 播放 器 可 以 获取 汽车 硬盘 自动 点 唱机 、 一 张 SD 存储 卡 、 
一 台 相 连 的 手机 以 及 互联 网 服务 中 的 音乐 。 用 户 体验 设计 师 可 以 利用 一 个 同类 群 内 所 有 可 用 
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的 资源 来 设计 体验 内 容 。 因 此 ， 一 个 指令 “ 放 点 儿 番 士 乐 ”会 生成 从 所 有 资源 中 挑 出 相符 
音乐 这 一 行为 结 


3.12.2 分布 的 语音 及 语言 技术 


对 于 语音 及 语言 用 户 界面 ， 大 致 上 要 考虑 以 下 因素 来 确定 处 理 的 位 置 ; 

。 平台 能 力 : 中 央 处 理 器 ， 内 存 以 及 功率 情况 。 

e 联网 能 力 : 网 速 ， 稳 定性 ， 带 宽 ， 联 网 额外 花费 ， 例 如 数据 包 限 制 。 

。 语音 识别 和 理解 的 应 用 领域 所 需要 的 模型 类 别 和 规模 。 例 如 ， 在 不 同 语 境 下 ， 是 有 
10 万 个 城市 名 需要 识别 ， 还 是 只 有 用 户 联系 人 列表 中 的 几 百 个 名 字 要 识别 ? 

以 下 设备 类 型 是 不 同 平 台 变化 范围 的 一 些 例子 : 

。 个 人 电脑 : 充足 的 CPU 和 内 存 ， 持 续 供 电 。 经 常 连接 因特网 。 本 地 领域 : 命令 运行 
软件 和 电脑 ， 文 本 听写 。 

。 手机 和 平板 电脑 : 有 限 CPU 和 内 存 ， 电 池 供 电 。 经 常 连 接 因特网 ， 联 网 可 能 更 贵 且 
不 稳定 〈 例 如 ， 信 和 号 覆盖 消失 ) 。 

。 车 载 电脑 : AR CPU 和 内 存 ， 持 续 供 电 。 经 常 连接 因特网 ,联网 可 能 更 贵 且 不 稳定 。 

。 电视 机 : APR CPU 和 内 存 ， 持 续 供 电 。 经 常 连 接 因 特 网 ， 但 并 非 所 有 用 户 都 会 将 电 
视 机 联网 。 

© 云端 服务 器 : 广阔 的 CPU 和 内 存 资源 ， 可 同时 应 对 多 项 互动 。 连 接 因特网 以 及 其 他 
大 数据 资源 。 

越 来 越 多 的 联网 促成 了 混合 架构 的 发 展 。 这 些 混合 架构 模糊 了 传统 内 置 设 定 和 基于 服务 
器 设 定 的 界限 ， 并 且 促成 了 对 多 种 个 人 设备 功能 和 领域 的 期 待 ， 例 如 ， 信 息 搜索 、 媒 体 播 
放 、 语 音 输入 。 

在 考虑 如 何在 分 布 式 构架 中 分 配 任务 时 ， 备 受 推崇 的 做 法 曾经 是 “在 数据 本 地 进行 处 
理 ”， 而 这 种 做 法 随 着 联网 带宽 的 增长 ,已 经 并 非 绝对 必要 ， 但 仍旧 是 良好 的 指导 方针 。 假 
设 自 然 语言 或 对 话 部 分 完全 在 远 端 服务 器 运行 ， 则 用 户 界 面 的 一 致 性 也 是 重要 方面 。 如 果 数 
据 连接 中 断 ， 用 户 可 能 容易 理解 数据 连接 服务 就 像 网 络 搜索 一 样 被 中 断 ， 但 是 他 们 可 能 不 清 
楚 ， 设 备 的 自然 语言 对 话 能 力也 随 之 不 可 用 了 。 

在 语音 与 语言 用 户 界面 中 ,， 植 人 的 “ 自 带 ”语音 识别 通常 通过 处 理 语 音 命令 来 操作 指 
定 设备 ， 这 可 以 通过 使 用 语法 分 析 型 命令 及 控制 类 别 识别 器 ， 或 小 数据 语言 模型 (SLM) 来 
达成 自然 语言 处 理 。 然 而 ， 当 前 的 移动 平台 在 试图 识别 装载 数 万 城市 名 的 大 预 设 列 表 的 SLM 
语音 时 达到 了 极限 。 这 样 ， 该 任务 只 能 通过 基于 服务 咒 的 识别 咒 来 完成 。 很 多 情况 下 ， 在 植 
入 平台 和 服务 器 上 同时 进行 识别 是 一 种 好 办 法 ,通过 比较 结果 的 置信 度 ， 然 后 选择 最 优 解 ， 
从 而 避免 低 置信 度 自 带 语音 识别 结果 对 服务 器 语音 识别 的 触发 而 引起 的 延迟 。 

自 带 识别 器 上 的 其 他 任务 还 有 唤醒 词语 检测 ， 并 结合 声音 生物 计量 来 分 别 启动 设备 并 验 
证 用 户 ， 利 用 语音 行为 和 终点 检测 来 分 割 语音 和 进行 语音 识别 特征 提取 ， 从 而 保证 只 需 往 识 
别 服 务 器 上 传输 语音 特征 而 非 整 段 语音 。 
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用 户 档案 对 于 存储 对 话 决 策 相 关 的 个 人 偏好 、 说 话 人 特征 、 本 地 语言 声学 和 语言 建 模 都 有 益 
处 。 用 户 档案 还 存 有 生物 计量 信息 ， 可 以 确认 用 户 的 身份 ， 从 而 授权 某 种 服务 或 资料 获取 。 若 用 
户 档案 可 以 在 任意 设备 上 获取 ， 则 作用 最 大 。 但 即使 设备 中 断 网 络 连接 ， 比 如 当 车 过 隧道 时 ， 用 
户 档案 也 应 该 继续 发 挥 作 用 。 这 个 问题 可 以 通过 云端 主人 用 户 档案 配合 本 地 设备 的 同步 复制 档案 
解决 ， 或 者 通过 把 手机 作为 档案 的 中 心 枢纽 ， 因 为 手机 是 陪伴 用 户 时 间 最 久 的 设备 。 

在 服务 器 上 存储 这 样 的 档案 的 另 一 个 优点 是 这 一 系列 的 档案 可 以 组 成 一 个 包含 广泛 信息 
的 独立 实体 ， 并 且 人 允许 从 用 户 群 体 或 部 分 群体 中 获取 数据 。 有 的 新 闻 服 务 可 能 有 兴趣 从 所 有 
连接 到 档案 群 的 记录 中 找到 热门 话题 ， 然 后 进行 关键 词 搜索 。 有 的 音乐 网 店 可 能 会 查询 档案 
群 寻找 加 利 福 尼 亚 州 18 ~25 岁 男性 最 喜欢 的 歌手 。 

通常 ， 不 同 用 户 的 各 个 档案 相互 连接 ， 例 如， 用 户 A 和 B 互 为 彼此 电子 邮件 通讯 录 中 
联系 人 ， 或 通过 社交 网 站 有 联系 。 如 有 果 这 个 信息 存储 在 用 户 档案 中 ， 这 一 组 跨 区 相连 的 档案 
f 就 可 以 允许 用 户 的 虚拟 助手 进行 提问 ， 例 如 , “我 现在 要 去 的 城镇 有 没有 我 的 朋友 ,或 者 
有 没有 朋友 的 朋友 在 那里 ?” 或 者 “我 的 朋友 们 都 在 听 什 么 音乐 ?” 基 于 服务 咒 的 识别 和 日 
志 ， 当 在 用 户 档案 中 存储 数据 时 ， 隐 私 和 数据 安全 是 设计 和 操作 服务 器 基础 设施 的 关键 。 

最 后 ， 在 输出 方面 ，TIS (文本 转 语音 ) 和 请 言 生成 通常 在 用 户 设备 上 和 运行， 除非 高 品质 声 
音 所 需 的 内 存 比 本 地 内 存 大 ， 或 者 整个 应 用 程序 受托 管 目 服务 器 解决 方案 更 方便 建立 和 维护 。 
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语音 驱动 的 NLU 交互 界面 涵盖 了 广泛 的 设备 ， 包 括 了 手机 、 平 板 电脑 、 电 视 机 、 汽 车 
和 信息 咨询 台 。 用 户 与 它们 的 交互 已 经 成 为 了 每 日 例 行 的 活动 。 这 些 界 面 使 安装 在 设备 上 的 
复杂 功能 变 得 更 简单 自然 。 相 对 于 发 出 一 系列 细微 的 命令 ， 用 户 可 以 以 越 来 越 自然 的 语言 表 
达 他 们 的 综合 意图 ， 而 由 系统 决定 需要 执行 的 步骤 。 这 种 自然 语言 的 互动 在 许多 环境 中 正在 
变 得 愈 发 实用 : 街道 上 、 汽 车 内 、 客 厅 里 以 及 新 的 装置 上 。 

所 有 这 些 新 的 功能 都 指向 一 个 问题 : 如 何 能 最 佳 的 把 自然 语言 理解 植 人 今天 的 视觉 界面 
E? 有 一 系列 多 样 的 途径 ， 包 括 “ 虚 拟 助手 ”这 类 选项 。2013 年 是 该 技术 的 丰收 之 年 ， 我 
们 见证 了 诸如 苹果 Siri, =Æ S - Voice, F JÈ Assistant 和 谷歌 Now 的 诞生 ， 以 及 市 场 上 将 近 
60 种 的 类 似 产品 。 

虚拟 助手 可 以 被 视 为 是 单独 的 个 体 ， 它 可 以 进行 对 话 ， 还 有 自己 的 个 性 。 它 可 以 阐释 用 户 
的 输入 ， 并 协调 用 户 、 设 备 本 地 用 户 界面 和 一 系列 (SE) 自 带 识别 应 用 。 某 些 情况 下 ， 助 手 
甚至 可 以 用 自己 的 UI 对 获得 的 信息 进行 重新 整理 ， 从 而 承担 起 了 放大 和 过 滤 网 络 信息 的 任务 。 

另外 一 种 设计 也 许可 以 称 为 “环境 NLU”， 它 保持 了 本 地 设备 的 外 观 和 应 用 界面 的 使 用 
体验 ,但 般 入 了 语 境 敏感 的 NLU。 通 过 与 该 界面 对 话 ， 用 户 可 以 获取 信息 ， 也 可 以 打开 并 
控制 熟悉 的 应 用 。 系 统 在 需要 完成 多 轮 讨论 或 消除 收 义 时 与 用 户 对 话 。 相 对 于 在 事件 中 占据 
主导 ， 这 类 助手 的 特点 是 低调 、 高 效 和 灵活 。 可 能 的 情况 下 ， 它 会 基于 一 个 单一 话语 指令 完 
成 任务 而 不 会 限制 用 户 可 以 获取 信息 的 渠道 。 它 的 目标 并 不 是 帮助 用 来 解决 现 有 UI 的 短 板 ， 
而 是 致力 于 成 为 一 个 改进 UI 的 内 在 组 成 部 分 。 

不 管 哪 种 ,语音 和 语言 理解 现 已 被 视 为 一 个 新 的 基础 元 件 一 一 能 获取 和 控制 位 于 设备 或 云 服 
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务 的 无 形 资产 ， 为 传统 视觉 UI 增加 了 一 个 新 维度 。 往 后 若干 年 ， 随 着 工程 师 不 断 地 对 体验 结构 
进行 更 新 再 造 ， 我 们 必 将 目睹 这 些 新 维度 的 积极 扩展 和 对 当前 “缩小 桌面 ”现象 的 快速 修改 。 

语音 革命 的 进程 因为 多 种 组 件 技术 的 持续 发 展 而 不 断 推进 ， 近 几 年 在 许多 系统 只 是 
“简单 运转 ”的 领域 进行 着 持续 的 推广 和 改进 。 性 能 上 的 不 断 突破 主要 归 因 于 许多 互补 领域 
的 改进 ， 包 括 : 

e 语音 识别 技术 ， 特 别 是 DNN。 

。 信号 获取 增强 。 

。 改进 的 TTS 和 声音 生物 计量 建 模 。 

© 结合 结构 性 方法 的 意义 抽取 和 机 器 学 习 。 

© 对 话 互动 、 概 率 规划 识别 、 知 识 呈 现 和 推理 。 

。 问题 解答 。 

许多 因素 促成 了 这 些 进 步 . 

e 可 用 运算 能 力 的 提高 ， 包 括 特殊 目的 的 计算 设备 。 

e 可 用 训练 语料库 的 规模 。 

© 数据 统计 建 模 的 改进 。 

© 数 以 千 计 人 的 多 年 的 研发 努力 。 

除了 这 些 进 步 之 外 ,我们 仍旧 面临 着 许多 挑战 。 或 者 积极 地 说 ， 我 们 期 待 在 未 来 数 年 取 
得 进一步 的 发 展 。 构 建 有 着 深层 理解 人 类 语言 能 力 的 对 话 代理 人 既是 挑战 也 是 我 们 的 承诺 。 


致谢 


作者 想 要 感谢 对 本 章 做 出 贡献 的 参与 者 : Dario Albesano, Markus Buck, Joev Dubach, 
Nils Lenke, Franco Mana, Paul Vozila, Puming Zhan, 


参考 文献 




















i 

















1. Davis, S., Mermelstein, P. (1980). Comparison of parametric representations for monosyllabic word recogni- 
tion in continuously spoken sentences. IEEE Transactions on Acoustics, Speech and Signal Processing 28(4), 
357-366. 

2. Hermansky, H. (1990). Perceptual linear predictive (PLP) analysis of speech. The Journal of the Acoustical 
Society of America 87, 1738. 

3. Bahl, L., Bakis, R., Bellegarda, J., Brown, P., Burshtein, D., Das, S., De Souza, P., Gopalakrishnan, P., Jelinek, 
F., Kanevsky, D. (1989). Large vocabulary natural language continuous speech recognition. International Con- 
ference on Acoustics, Speech, and Signal Processing, 1989 (ICASSP-89). 

4. Rabiner, L. (1989). A tutorial on hidden Markov models and selected applications in speech recognition. 
Proceedings of the IEEE 77(2), 257-286. 

5. Ney, H., Ortmanns, S. (2000). Progress in dynamic programming search for LVCSR. Proceedings of the IEEE 
88(8), 1224-1240. 

6. Hunt, A., McGlashan, S. (2004). Speech recognition grammar specification version 1.0. W3C Recommendation. 
hitp://www.w3.org/TR/speech-grammar/. 

7. Chomsky, N. (2002). Syntactic structures. Mouton de Gruyter. 

8. Jclinck, F. (1997). Statistical methods for speech recognition.: MIT press. 

9. Bahl, L., Brown, P., De Souza, P., Mercer, R. (1986). Maximum mutual information estimation of hidden Markov 
model parameters for speech recognition. JEEE International Conference on Acoustics, Speech, and Signal 
Processing, ICASSP ’86. 


10. 


27. 


28. 


S35 用户 界面 中 的 声控 式 交互 技术 


McDermott, E., Hazen, T.J., Le Roux, J., Nakamura, A., Katagiri, S. (2007). Discriminative training for 
large-vocabulary speech recognition using minimum classification error. IEEE Transactions on Audio, Speech, 
and Language Processing 15(1), 203-223. 


. Povey, D., Woodland, P.C. (2002). Minimum Phone Error and l-Smoothing for Improved Discrimative Training. 


International Conference on Acoustics, Speech, and Signal Processing (ICASSP). 


. Leggetter, C.J., Woodland, P.C. (1995). Maximum likelihood linear regression for speaker adaptation of contin- 


uous density hidden Markov models. Computer Speech & Language 9(2), 171-185. 


. Hermansky, H., Morgan, N. (1994). RASTA processing of speech. IEEE Transactions on Speech and Audio 


Processing 2(4), 578—589. 


. Furui, S. (1986). Speaker-independent isolated word recognition based on emphasized spectral dynamics. IEEE 


International Conference on Acoustics, Speech, and Signal Processing, ICASSP’86. 


. Kumar, N., Andreou, A.G. (1998). Heteroscedastic discriminant analysis and reduced rank HMMs for improved 


speech recognition. Speech Communication 26(4), 283-297. 


. Sim, K., Gales, M. (2004). Basis superposition precision matrix modelling for large vocabulary continuous 


speech recognition. Proceedings of IEEE International Conference on Acoustics, Speech, and Signal Processing, 
2004. (ICASSP’04). 


. Lee, L., Rose, R.A. (1998). Frequency warping approach to speaker normalization. IEEE Transactions on Speech 


and Audio Processing 6(1), 49—60. 


. Kneser, R., Ney, H. (1995). Improved backing-off for M-gram language modeling. 1995 International Confer- 


ence on Acoustics, Speech, and Signal Processing, ICASSP-95. 


. Chen, S.F. (2009). Performance prediction for exponential language models. Proceedings of Human Language 


Technologies: The 2009 Annual Conference of the North American Chapter of the Association for Computational 
Linguistics. Association for Computational Linguistics. 


. Kuo, H.-K., Arisoy, E., Emami, A., Vozila, P. (2012). Large Scale Hierarchical Neural Network Language 


Models. INTERSPEECH. 


. Pereira, F.C., Riley, M.D. (1997). 15 Speech Recognition by Composition of Weighted Finite Automata. 


Finite-state language processing, 431. 


. Pogue, D. (2010). TechnoFiles: Talk to the machine. Scientific American Magazine 303(6), 40—40. 
. Hershey, J.R., Rennie, S.J., Olsen, P.A., Kristjansson, T.T. (2010). Super-human multi-talker speech recognition: 


A graphical modeling approach. Computer Speech & Language 24(1), 45-66. 


. Bourlard, H.A., Morgan, N. (1994). Connectionist speech recognition: a hybrid approach. Vol. 247. Springer. 
. Gemello, R., Albesano, D., Mana, F. (1997). Continuous speech recognition with neural networks and 


stationary-transitional acoustic units. International Conference on Neural Networks. 


. Mohamed, A., Dahl, G.E., Hinton, G. (2012). Acoustic Modeling Using Deep Belief Networks. IEEE Transac- 


tions on Audio, Speech, and Language Processing 20(1), 14-22. 

Hinton, G., Li, D., Deng, Y., Dahl, G.E., Mohamed, A., Jaitly, N., Senior, A., Vanhoucke, V., Nguyen, P., Sainath, 
T.N., Kingsbury, B. (2012). Deep Neural Networks for Acoustic Modeling in Speech Recognition: The Shared 
Views of Four Research Groups. Signal Processing Magazine 29(6), 82—97. 

Dahl, G.E., Dong, Y., Li, D., Acero, A. (2012). Context-Dependent Pre-Trained Deep Neural Networks for 
Large-Vocabulary Speech Recognition. IEEE Transactions on Audio, Speech, and Language Processing 20(1), 
30-42. 


. Loizou, P.C. (2013). Speech enhancement: theory and practice. CRC press. 
. Hofmann, C., Wolff, T., Buck, M., Haulick, T., Kellermann, W.A. (2012). Morphological Approach to 


Single-Channel Wind-Noise Suppression. Proceedings of International Workshop on Acoustic Signal Enhance- 
ment (IWAENC 2012). 


. Widrow, B., Stearns, S.D. (1985). Adaptive signal processing. Vol. 15. IET. 
. Breining, C., Dreiscitel, P., Hansler, E., Mader, A., Nitsch, B., Puder, H., Schertler, T., Schmidt, G., Tilp, J. 


(1999), Acoustic echo control. An application of very-high-order adaptive filters. Signal Processing Magazine 
16(4), 42-69. 


. Haykin, S.S. (2005). Adaptive Filter Theory, 4/e. Pearson Education India. 
. Griffiths, L.J., Jim, C.W. (1982). An alternative approach to linearly constrained adaptive beamforming. IEEE 


Transactions on Antennas and Propagation 30(1), 27-34. 


. Wolf, T., Buck, M. (2010). A generalized view on microphone array postfillers. Proc. International Workshop 


on Acoustic Signal Enhancement, Tel Aviv, Israel. 


. DiBiase, J.H., Silverman, H.F., Brandstein, M.S. (2001). Robust localization in reverberant rooms. In: Micro- 


phone Arrays. Springer. 157—180. 


131 


132 


将 


37. 


38. 


39. 


40. 


41. 


60. 


65. 


66. 


RASH: 人 工 智能 下 的 人 机 交互 技术 


Furui, S. (1981). Cepstral analysis technique for automatic speaker verification. IEEE Transactions on Acoustics, 
Speech and Signal Processing 29(2), 254—272. 

Furui, S. (1981). Comparison of speaker recognition methods using statistical features and dynamic features. 
LEEE Transactions on Acoustics, Speech and Signal Processing 29(3), 342—350. 

Reynolds, D.A., Quatieri, T.F., Dunn, R.B. (2000). Speaker verification using adapted Gaussian mixture models. 
Digital signal processing 10(1), 19-41. 

Solomonolf, A., Campbell, W.M., Boardman, I. (2005). Advances In Channel Compensation For SVM Speaker 
Recognition. Proceedings of LEEE International Conference on Acoustics, Speech, and Signal Processing, 2005 
(ICASSP ’05). 

Kenny, P., Boulianne, G., Ouellet, P., Dumouchel, P. (2007), Joint factor analysis versus eigenchannels in speaker 
recognilion. IEEE Transactions on Audio, Speech, and Language Processing 15(4), 1435-1447. 


. Dehak, N., Kenny, P.J., Dehak, R., Ouellet, P., Dumouchel, P. (2011). Front-end factor analysis for speaker 


verification. IEEE Transactions on Audio, Speech, and Language Processing 19(4), 788—798. 


. Mistretta, W., Farrell, K. (1998). Model adaptation methods for speaker verification. Proceedings of the 1998 


IEEE International Conference on Acoustics, Speech and Signal Processing. 


. Speaker Recognition Evaluation (2013). http://www.itl nist.gov/iad/mig/tests/spk/. 
. Evans, N., Yamagishi, J., Kinnunen, T. (2013). Spoofing and Countermeasures for Speaker Verification: a Need 


for Standard Corpora, Protocols and Metrics. SLTC Newsletter. 


. Klatt, D.H. (1987). Review of text-to-speech conversion for English. Journal of the Acoustical Society of Amer- 


ica 82(3), 737-793. 


. Taylor, P. (2009). Text-to-speech synthesis. Cambridge University Press. 

. Ladd, D.R. (2008). Intonational phonology. Cambridge University Press. 

. Ladefoged, P., Johnstone, K. (2011). A course in phonetics. CengageBrain.com. 
50. 


Yoshimura, T., Tokuda, K., Masuko, T., Kobayashi, T., Kitamura, T. (1999). Simultaneous modeling of spectrum, 
pitch and duration in HMM-based speech synthesis. 


. Hunt, A.J., Black, A.W. (1996). Unit selection in a concatenative speech synthesis system using a large speech 


database. Proceedings of 1996 IEEE International Conference on Acoustics, Speech, and Signal Processing, 
ICASSP-96. 


. Donovan, R.E. (1996). Trainable speech synthesis, PhD Thesis, University of Cambridge. 
. Pollet, V., Breen, A. (2008). Synthesis by generation and concatenation of multiform segments. INTERSPEECH. 
. Chen, L., Gales, M.J., Wan, V., Latorre, J., Akamine, M. (2012). Exploring Rich Expressive Information from 


Audiobook Data Using Cluster Adaptive Training. INTERSPEECH. 


. Zen, H., Senior, A., Schuster, M. (2013). Statistical parametric speech synthesis using deep neural networks, 


International Conference on Acoustics, Speech, and Signal Processing, ICASSP-13. Vancouver. 


. Walker, M., Whittaker, S. (1990). Mixed initiative in dialogue: An investigation into discourse segmentation. 


Proceedings of the 28th annual meeting on Association for Computational Linguistics. 


. Florian, R., Hassan, H., Iuycheriah, A., Jing, H., Kambhatla, N., Luo, X., Nicolov, N., Roukos, S., Zhang, T. 


(2004). A Statistical Model for Multilingual Entity Detection and Tracking. HLT-NAACL. 


. Berger, A.L., Pietra, V.J.D., Pietra, S.A.D. (1996). A maximum entropy approach to natural language processing. 


Computational Linguistics 22(1), 39-71. 


. Borthwick, A., Sterling, J., Agichtein, E., Grishman, R. (1998). Exploiting diverse knowledge sources via max- 


imum entropy in named entity recognition. Proc. of the Sixth Workshop on Very Large Corpora. 
Brown F, deSouza V, Mercer RL, Pietra VJD, Lai JC. (1992). Class-based n-gram models of natural language. 
Computational Linguistics 18, 467-479. 


. Miller, S., Guinness, J., Zamanian, A. (2004). Name tagging with word clusters and discriminative training. 


HLT-NAACL 337-342. 


. Collobert, R., Weston, J., Bottou, L., Karlen, M., Kavukcuoglu, K., Kuksa, P. (2011). Natural language process- 


ing (almost) from scratch, The Journal of Machine Learning Research 12, 2493-2537. 


. Lafferty J, McCallum A, Pereira FC. (2001). Conditional random fields: Probabilistic models for segmenting 


and labeling sequence data. 


. Finkel, J.R., Grenager, T., Manning, C. (2005). Incorporating non-local information into information extrac- 


tion systems by Gibbs sampling. Proceedings of the 43rd Annual Meeting on Association for Computational 
Linguistics. 

Ballesteros, M., Nivre, J. (2013). Going to the roots of dependency parsing. Computational Linguistics 39(1), 
5-13. 

Kiibler, S., McDonald, R., Nivre, J. (2009). Dependency parsing. Morgan & Claypool Publishers. 


67. 


68. 


69. 


70. 


86. 


87. 


88. 


S35 ”用 户 界面 中 的 声控 式 交 互 技术 


McDonald, R., Pereira, F., Ribarov, K., Hajié, J. (2005). Non-projective dependency parsing using spanning tree 
algorithms. Proceedings of the conference on Human Language Technology and Empirical Methods in Natural 
Language Processing. 

Nivre, J. (2008). Algorithms for deterministic incremental dependency parsing. Computational Linguistics 
34(4), 513-553. 

Riezler, S., King, T.H., Kaplan, R.M., Crouch, R., Maxwell IIT,, J.T., Johnson, M. (2002). Parsing the Wall Street 
Journal using a Lexical-Functional Grammar and discriminative estimation techniques. Proceedings of the 40th. 
Annual Meeting on Association for Computational Linguistics. 

Flickinger, D. (2000). On building a more efficient grammar by exploiting types. Natural Language Engineering 
6(1), 15-28. 


. Callmeier, U. (2002). Preprocessing and encoding techniques in PET. Collaborative language engineering. A 


case study in efficient grammar-based processing. Stanford, CA: CSLI Publications. 


. Brinkley, D., Guha, R. (2004). RDF vocabulary description language 1.0: RDF schema. W3C Recommendation. 


Available at http://www. w3. org/TR/PR-rdf-schema. 


. Manola, F., Miller, E., McBride, B. (2004). RDF primer. W3C recommendation; 10, 1—107. 
. Hitzler, P., Krétzsch, M., Parsia, B., Patel-Schneider, P.F., Rudolph, S. (2009). OWL 2 Web Ontology Language 


primer. W3C recommendation 27, 1-123. http://www.w3.ore/TR/owl2-primer/ 


. Mitkov, R. (2002). Anaphora resolution. Vol. 134. Longman, London. 
. Johnson, M. (2009). EMMA: Extensible MultiModal Annotation markup language. hup://www.w3.org 


/TR/emma/. 


. Young, S.R. (1993). Dialog Structure and Plan Recognition in Spontaneous Spoken Dialog. DTIC Document. 
. Williams, J.D. (2013). The Dialog State Tracking Challenge. SIGdial 2013. http://www.sigdial.org/workshops 


/sigdial2013/proceedings/index.html. 


. Ferguson, G., Allen, J.F. (1993). Generic plan recognition for dialogue systems. Proceedings of the workshop 


on Human Language Technology. Association for Computational Linguistics. 


. Bui, H.H. (2003). A general model for online probabilistic plan recognition. JJCAI. 
. Domingos, P., Lowd, D. (2009). Markov logic: An interface layer for artificial intelligence. Synthesis Lectures 


on Artificial Intelligence and Machine Learning 3(1), 1-155. 


. Bohus, D., Rudnicky, A.L. (2009). The RavenClaw dialog management framework: Architecture and systems. 


Computer Speech & Language 23(3), 332-361. 


. Bobrow, D.G., Kaplan, R.M., Kay, M., Norman, D.A., Thompson, H., Winograd, T. (1977). GUS, a trame-driven 


dialog system. Artificial intelligence 8(2), 155-173. 


. Picraccini, R., Huerta, J. (2005). Where do we go from here? Research and commercial spoken dialog systems. 


6th SIGdial Workshop on Discourse and Dialogue. 


. Picraccini, R., Levin, E., Eckert, W. (1997). AMICA: the AT&T mixed initiative conversational architecture. 


Eurospeech. 

Pieraccini, R., Caskey, S., Dayanidhi, K., Carpenter, B., Phillips, M. (2001). ETUDE, a recursive dialog manager 
with embedded user interface patterns. IEEE Workshop on Automatic Speech Recognition and Understanding, 
2001 (ASRU’0O/). 

Carpenter, B., Caskey, S., Dayanidhi, K., Drouin, C., Pieraccini, R. (2002). A Portable, Server-Side Dialog 
Framework for VoiceXML. Proc. Of ICSLP 2002. Denver, CO. 

Senelf, S., Polifroni, J. (2000). Dialogue management in the Mercury flight reservation system. Proceedings 
of the 2000 ANLP/NAACL Workshop on Conversational systems — Volume 3. Association for Computational 
Linguistics. 


. Larsson, S., Traum, D.R. (2000). Information state and dialogue management in the TRINDI dialogue move 


engine toolkit. Natural language engineering 6(3—4), 323-340. 


. Lemon, O., Bracy, A., Grucnstcin, A., Peters, S. (2001). The WITAS multi-modal dialogue system I. 


INTERSPEECH. 


. Rich, C., Sidner, C.L. (1998). COLLAGEN: A collaboration manager for software interface agents. User Mod- 


eling and User-Adapted Interaction 8(3—4), 315-350. 


. Blaylock, N., Allen, J. (2005). A collaborative problem-solving model of dialogue. 6th SIGdial Workshop on 


Discourse and Dialogue. 


. Frampton, M., Lemon, O. (2009). Recent research advances in Reinforcement Learning in Spoken Dialoguc 


Systems. Knowledge Eng. Review 24(4), 375-408. 


133 


134 


将 


~ 


94. 


100. 
101. 
102. 
103. 
104. 
105. 


106. 
07. 


08. 
09. 


10. 


11. 


12. 
13. 





114. 
115. 


116. 
117. 


118. 


119. 
120. 


121. 


感 交互 : 人 工 智 能 下 的 人 机 交互 技术 


Lemon, O., Liu, X., Shapiro, D., Tollander, C. (2006). Hierarchical Reinforcement Learning of Dialogue Policies 
in a development environment for dialogue systems: REALL-DUDE. BRANDIAL’06, Proceedings of the 10th 
Workshop on the Semantics and Pragmatics of Dialogue. 


. Rieser, V., Lemon, O. (2011). Reinforcement learning for adaptive dialogue systems. Springer. 

. Grice, H.P. (1975). Logic and conversation. Syntax and Semantics, Vol. 3: Speech Acts, 41—58. 

. Searle, J.R. (1969). Speech acts: An essay in the philosophy of language. Vol. 626. Cambridge University Press. 
. Austin, J. (1962). How to do things with words (William James Lectures). Oxford University Press. 

. Cohen, P.R., Perrault, C.R. (1979). Elements of a plan-bascd theory of speech acts. Cognitive science 3(3), 


177-212. 

Lenke, N. (1993). Regelverletzungen zu kommunikativen Zwecken. KODIKAS,/ CODE 16, 71-82. 

Davis, E. (1990). Representations of commonsense knowledge. Morgan Kaufmann Publishers Inc. 

Commonsensce Reasoning (2013). Commonsense Reasoning ~ Home; http://www.commonsenscreasoning.org/. 

Kamp, H., Reyle, U. (1993). From discourse to logic: Introduction to model theoretic semantics of natural 

language, formal logic and discourse representation theory. Springer. 

Gamut, L. (1991). Logic, Language and Meaning, volume ÍI, Intentional Logic and Logical Grammar. Univer- 

sity of Chicago Press, Chicago, IL. 

Lascarides, A., Asher, N. (2007). Segmented discourse representation theory: Dynamic semantics with discourse 

structure. Computing meaning, 87—124. Springer. 

Levinson, S.C. (1983). Pragmatics (Cambridge textbooks in linguistics). 

Russell, S.J., Norvig, P., Canny, J.F., Malik, J.M., Edwards, D.D. (1995). Artificial intelligence: a modern 

approach, Vol. 74. Prentice Hall, Englewood Cliffs. 

KR, Inc. (2013). Principles of Knowledge Representation and Reasoning. hup://www.kr.org/. 

Baader, F. (2003). The description logic handbook: theory, implementation, and applications. Cambridge uni- 

versity press. 

Boutilier, C., Bratman, R.L., Domshlak, C., Hoos, H.H., Poole, D. (2004). CP-nets: A tool for representing and 

reasoning with conditional ceteris paribus preference statements. J. Artif. Intell. Res.( JAIR) 21, 135-191. 

Grosz, B.J., Sidner, C.L. (1986). Attention, intentions, and the structure of discourse. Computational linguistics 

12(3), 175-204. 

Allen, J. (1987). Natural language understanding. Vol. 2. Benjamin/Cummings Menlo Park, CA. 

Traum, D.R., Larsson, S. (2003). The information state approach to dialogue management. Current and new 

directions in discourse and dialogue, 325-353. Springer. 

SIGdial: Special Interest Group on Discourse and Dialog (2013). http://www.sigdial. 

Woods, W.A., Kaplan, R.M., Nash-Webber, B., Center, M.S. (1972). The lunar sciences natural language infor- 

mation system: Final report. Bolt Beranek and Newman. 

AQUAINT (2013). Advanced Question Answering for Intelligence. http://www-nlpir.nist.gov/projects/aquaint/ 

Ferrucci, D.A. (2012). Introduction to This is Watson. IBM Journal of Research and Development 56(3.4), 

1:12-1:15. 

Surdeanu, M., Ciaramita, M., Zaragoza, H. (2011). Learning to rank answers to non-factoid questions from web 

collections. Computational Linguistics 37(2), 351-383. 

De Mameffe, M.—C., Rafferty, A.N., Manning, C.D. (2008). Finding Contradictions in Text. ACL. 

Demberg, V., Winterboer, A., Moore, J.D. (2011). A strategy for information presentation in spoken dialog 

systems. Computational Linguistics 37(3), 489-539. 

Diekema, A.R., Yilmazel, O., Liddy, E.D. (2004). Evaluation of restricted domain question-answering systems. 

Proceedings of the ACL2004 Workshop on Question Answering in Restricted Domain. 

Further reading 

Allen, J., Kautz, H., Pelavin, R., Tenenberg, J. (1991). Reasoning about plans. Morgan Kaufmann 
San Mateo, CA. 

Allen, J.F. (2003). Natural language processing. 

Chen, C.H. (1976). Pattern Recognition and Artificial Intelligence: Proceedings of the Joint Workshop on Pattern 
Recognition and Artificial Intelligence, Held at Hyannis, Massachusetts, June 1-3, 1976. Acad. Press. 

Dayanidhi, B.C.S.C.K., Pieraccini, C.D.R. (2002). A portable, server-side dialog framework for VoiceXML. 

Graham, S., McKeown, D., Kiuhara, S., Harris, K.R. (2012). A meta-analysis of writing instruction for students 
in the elementary grades. Journal of Educational Psychology 104, 879-896. 


第 3 章 ”用 户 界面 中 的 声控 式 交互 技术 135 


Kautz, H.A. (1991). A formal theory of plan recognition and its implementation. In Reasoning about plans. 
Morgan Kaufmann Publishers Inc. 

Lascarides, A. (2003). Logics of conversation. Cambridge University Press. 

Perrault, C.R., Allen, J.F. (1980). A plan-based analysis of indirect speech acts. Computational Linguistics 
6(3-4), 167-182. 

Roche, E., Schabes, Y. (1997). Finite-state language processing. The MIT Press. 

Schlegel, K., Grandjean, D., i Scherer, K.R. (2012). Emotion recognition: Unidimensional ability or a set of 
modality- and emotion-specific skills. Personality and Individual Differences 53(1), 16-21. 


一 
第 4 章 


Ah ot TER SAAT Ee BRA 


Achintya K. Bhowmik 
美国 英特尔 集团 


4.1 引言 





视觉 在 我 们 与 现实 世界 的 交互 中 占据 主导 地 位 。 虽 然 我 们 人 类 拥有 的 其 他 知觉 感知 与 处 
理 能 力 ， 例 如 触觉 、 语 言 、 听 觉 、 嗅 觉 和 味觉 等 ， 也 是 使 我 们 能 够 在 日 常生 活 中 了 解 周围 世 
RANE I 但 其 中 最 为 重要 、 最 常用 到 的 感知 处 理 能 力 ， 是 利用 人 类 视 

觉 系 统 接收 并 处 理光 学 信息 的 能 力 ， 它 让 我 们 感知 并 了 解 了 周围 的 世界 。 

ps ee ta 我 们 日 常用 来 计算 、 
通 、 娱 乐 的 电子 设备 ， 都 是 通过 图 像 显 示 器 以 视觉 信息 的 形式 将 系统 输出 与 呈现 给 用 户 。 
示 器 上 视觉 内 容 的 控制 与 交互 仍然 是 当前 研发 的 热门 领域 ， 通 常 可 以 参考 以 “人 机 交互 ” 
或 “人 机 界面 ”为 题 出 版 的 文献 。 

正如 第 1 章 中 所 述 ， 在 通过 显示 器 和 系统 实现 人 类 交互 的 方式 中 ， 早 期 获得 商业 成 功 的 
实现 方式 ， 大 多 是 利用 远程 电视 显示 和 电脑 鼠标 操作 这 类 非 直 接 操 作 。 随 着 近年 配备 触摸 屏 
的 显示 器 越 来 越 多 ， 同 时 为 触 控 操作 优化 的 软件 应 用 程序 及 用 户 界 面 也 越 来 越 为 人 广泛 接 
Z, 显示 器 正 迅 速成 为 能 够 接收 直接 人 类 操作 的 双向 交互 设备 。 不 过 ， 由 于 基于 触 控 操作 的 
系统 本 质 上 属于 二 维 输入 设备 ， 它 会 将 人 类 与 显示 器 上 内 容 的 交互 限制 在 设备 平面 来 进行 。 
而 我 们 人 类 拥有 一 套 包 含 双 目 成 像 与 推理 方案 的 3D 视觉 传 感 系统 ， 能 够 在 3D 世界 中 通过 
视觉 进行 感知 和 交互 。 如 果 能 够 用 上 这 套 先进 的 视觉 处 理 装置 ， 那 么 一 定 能 够 显著 扩展 交互 
显示 与 系统 的 功能 范围 。 这 类 显示 屏 和 系统 配备 有 拟人 视觉 感知 与 推理 技术 ， 能 够 “看 到 ” 
并 “感知 ”视觉 显示 屏 前 方 3D 空间 内 的 人 类 动作 ， 使 得 人 类 交互 体验 更 为 生动 、 自 然 、 直 
观 、 拟 真 。 

图 4. 1 显示 了 交互 式 显示 器 的 原理 框图 ， 为 突出 显示 基于 视觉 的 人 类 界面 与 交互 ， 该 图 
经 过 少许 修改 。 此 流程 从 通过 实时 图 像 获取 捕捉 用 户 动作 开始 。 图 像 子 系统 将 由 场景 产生 的 
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光线 变化 转化 为 代表 2D 或 3D 视觉 信息 的 电子 信 
F, 然后 发 送 给 计算 子 系统 。 专 门 设计 用 于 从 图 
像 序列 中 抽取 含义 的 软件 算法 便 能 识别 用 户 动 
作 ， 例 如 手 部 姿势 、 面 部 表情 或 双 目 凝视 。 此 后 
这 一 信息 会 作为 用 户 输 入 提供 给 应 用 层 ， 后 者 会 
据 此 在 计算 硬件 上 执行 各 类 处 理 函 数 以 生成 系统 
回复 。 最 后 ， 显 示 子 系统 以 光线 的 形式 产生 视觉 
输出 ， 形 成 能 够 通过 用 户 眼睛 和 视觉 传 感 系 统 感 
知 的 图 像 。 

在 本 章 中 ， 我 们 主要 说 明基 于 视觉 交互 的 技 
术 和 应 用 的 基本 原理 和 最 新 进展 ， 重 点 讲述 视觉 
传 感 和 处 理 技 术 ， 同 时 还 会 涉及 实现 系统 智能 以 
启用 自动 推理 与 识别 用 户 行为 的 算法 方法 。 在 下 
一 方 中 ， 我 们 会 讨论 图 像 获 取 方 法 ,涵盖 2D 和 
3D 两 方面 的 图 像 技 术 。 在 之 后 的 三 章 中 会 详细 
说 明 3D 传 感 技术 。 了 解 图 像 获 取 技 术 的 概述 之 
后 ， 我 们 会 介绍 肢体 动作 交互 技术 ， 包 括 在 交互 
式 显 示 咒 上 进行 应 用 的 姿势 建 模 、 分 析 和 识别 方 
法 。 最 后 ， 我 们 还 提供 了 自动 识别 面部 表情 技术 
的 最 新 进展 的 综述 。 













































































4.2 图 像 技 术 : 2D 和 3D 


视觉 传 感 与 胶体 动作 交互 技术 





输入 : 
通过 能 够 将 场景 光线 转换 为 电子 信号 的 
图 像 设备 接收 用 户 输入 





+ 


信号 处 埋 电 有 路 : 
对 来 自 图 像 传 感 器 的 倍 号 进行 处 理 和 格 
式 化 ， 然 后 传输 给 计算 机 界面 


M4 


计算 系统 : 
在 处 理 器 上 运行 算法 ， 识 别 米 白 图 像 传 
感 句 信 吕 的 用 户 行动 ， 驱 动 应 用 程序 








M4 











输出 : 
将 岂 子 信号 转换 为 光线 输出 ， 在 显示 器 
上 形成 图 像 ， 向 用 户 提供 视觉 反馈 

















到 4.1 交互 式 显 示 器 系统 架构 的 原理 框 


主要 突出 基于 视觉 的 传 感 和 交互 
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以 能 够 捕捉 2D 图 像 的 数码 摄像 头 为 代表 的 图 像 传 感 设备 如 今 几乎 随处 可 见 ， 越 来 越 多 
的 设备 无 论 尺 十 大 小 都 会 连同 图 像 显示 器 一 起 配备 此 类 传 感 设备 。 摄 像 头 如 今 是 大 多 数 移动 

















设备 的 集成 元 素 之 一 ， 包 括 手机 、 平 板 电脑 和 笔记 本 电 
桌面 电脑 与 新 式 平板 电视 等 设备 开始 配备 摄像 头 。 虽 然 越 来 


























出 等 ， 同 时 ， 也 有 越 来 越 多 的 一 体 化 
驾 多 的 此 类 系统 开始 广泛 采用 图 


像 设备 ， 但 它们 的 应 用 大 多 数 仅 限 捕 捉 数 码 媒体 (例如 供 打 印 或 在 显示 设备 上 查看 的 图 像 


及 视频 ) 或 视频 会 议 ， 而 不 是 基于 视觉 的 用 户 交 互 。 

















传统 图 像 传 感 和 获取 设备 会 将 3D 场景 的 视觉 信息 转化 为 2D 数组， 将 现实 世界 原本 3D 
空间 中 的 点 作为 离散 的 2D 点 映射 在 图 像 平面 上 (像素 )， 同 时 会 赋予 其 一 系列 数值 ， 以 反 


映 其 对 应 主 色彩 的 亮度 水 平 (像素 值 )。 从 3D 世界 中 的 视觉 信息 生成 2D 


利用 透视 投影 技术 的 齐 次 矩阵 形式 数学 地 描述 为 


[x'] =[C][x] 





图 像 的 过 程 ， 可 以 


(4.1) 


AF, [x] 代表 的 是 3D 世界 中 的 点 ; [x] 代表 的 是 2D 图 像 上 的 转化 点 ; [C] 表示 的 摄 
像 头 转化 矩阵 ， 含 有 对 应 于 摄像 头 的 旋转 和 翻译 及 透视 投影 矩阵 等 一 系列 矩阵 站 。 
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然而 ， 由 于 经 过 这 一 转化 过 程 所 成 图 像 中 的 像素 只 保留 了 原本 3D 空间 中 的 部 分 信息 ， 
因此 经 过 处理 之 后 ,无 法 从 捕捉 获得 的 2D 图 像 中 真实 恢复 原 有 的 3D 信息 。 如 何 从 单 灰 度 
图 像 重 构 3D 平面 是 广泛 研究 的 课题 之 一 ， 且 正 不 断 取得 重大 突破 中 。 然 而 ， 基 于 单一 
2D 图 像 传 感 设备 进行 实时 交互 的 应 用 实施 方面 ， 其 适用 范围 依然 有 限 ， 且 属于 计算 密集 型 
应 用 。 

人 类 视觉 系统 包含 双 目 成 像 方 案 ， 能 够 感知 景深 ,从 而 让 我 们 能 够 自如 漫步 3D 世界 并 
与 之 交互 。 类 似 地 ， 如 果 具 有 复杂 交互 方案 的 丰富 人 机 界面 任务 能 够 在 获取 像素 的 色彩 值 之 
外 ， 还 能 利用 3D 图 像 传 感 设备 捕捉 像素 的 景深 或 距离 信息 ， 则 效果 将 更 为 优异 。 利 用 实时 
3D 图 像 进行 交互 的 应 用 程序 开始 日 渐 流行 ， 尤 其 是 在 常见 于 客厅 中 的 游戏 和 娱乐 家 用 机 系 
统 ， 以 及 个 人 电脑 的 3D 用 户 界面 方面 !#5] 。 虽 然 眼下 可 以 捕捉 3D 视觉 信息 的 方式 有 许多 ， 
但 占据 主导 地 位 的 还 是 投影 式 结构 光 、 立 体 3D 成 像 法 ， 以 及 飞行 时 间 法 成 像 技术 这 三 
BRO! 。 我 们 会 在 第 5 ~7 章 中 深入 剖析 这 些 3D 传 感 技术 。 

以 基于 结构 光 的 3D 传 感 方法 为 例 ， 这 
种 方法 会 将 数 道 具有 固有 图 案 或 “结构 ” 
的 光束 (通常 是 红外 线 ) 投影 到 对 象 的 物 
体 或 场景 上 。 光 线 原 有 的 图 案 会 因 物 体 或 
场景 的 形状 发 生变 形 ， 然 后 会 使 用 图 像 传 
感 需 来 进行 捕捉。 最 后 ， 会 利用 这 一 投影 

























































光学 图 案 的 变形 来 确定 景深 映射 及 物体 和 地 
场景 的 3D 几何 形状 。 这 一 方案 的 概念 示意 k 








a) 
图 如 图 4.2 所 示 口 ] 。 在 第 5 章 中 ， Zhang 
等 人 会 详 述 结构 光 3D 成 像 技术 和 应 用 的 基 
本 原理 和 最 新 进展 。 À 


基于 立体 图 像 的 3D 计算 机 视觉 技术 试 

图 模拟 人 类 视觉 系统 ， 使 用 两 台 并 排放 置 
且 经 过 校准 的 成 像 设 备 同 步 捕捉 场 景 图 像 ， ”图 4 2 投 出 式 结构 光 3D 影像 捕 提 方法 原理 。 
之 后 会 从 双眼 视差 中 提取 出 每 个 i 的 景深 a) 照射 图 案 投射 在 场景 上 ， 所 得 的 反射 图 像 经 
aan EEE ge fe 个 点 的 景深 由 图 案 与 影 ` 
JPBUNBIR MERE. AnA «RNR. AT ERR aE 
aae 的 相对 变形 计算 得 出 。bp) 投射 条 状 图 案 示 例 。 
A SIN Zei Un T ERREP, DESEA, BARA 
PRB TRIR REE Af, EARREARFPET 。。 更 为 复杂 。e) 条 状 图 案 经 3D 物体 反射 后 所 


b) 


































































































AN 


的 位 置 A 和 B 处 形成 3D 志 界 中 点 了 的 得 的 捕捉 图 像 。 来 源 : Zhang, Curless and Seitz, 
图 像 。 2002. 转载 已 获 IEEE 许可 
这 一 简单 示例 中 ， 摄 像 头 平行 放置 且 
经 过 校准 。 由 图 可 知 ， 垂 直 于 两 个 摄像 头 中 心 连 线 的 物体 距离 ， 与 双眼 视差 成 反比 : 
depth =fL/A (4.2) 
用 于 确定 双眼 视差 及 从 立体 图 像 中 获取 景深 信息 的 算法 属于 研究 热点 ， 不 断 有 学 者 提出 
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3D 成 像 中 的 -iP 









左 摄像 头 中 心 Ci 
右 图 像 平 所 











TBAT UD Cy 


— 


图 4.3 立体 3D 成 像 方法 基本 原理 。 以 两 台 对 齐 且 经 过 校准 的 摄像 头 的 简单 情况 为 例 ， 
两 个 摄像 头 的 光学 中 点 分 别 为 C 和 C: ， 两 者 之 间 基 线 距离 为 Z。3D 世界 中 的 点 了 经 左右 两 个 
摄像 头 成 像 分 别 得 点 A 和 了 B。 右 图 像 平面 上 的 点 A' 对 应 左 图 像 平面 上 的 点 A。B 和 A' 核 线 之 间 

的 距离 称 为 双眼 视差 A， 此 值 可 知 与 点 P 到 基线 之 间 的 距离 (或 景深 ) 成 反比 

















新 的 进展 !8] 。 在 第 6 章 中 ，Lazaros 会 详细 介绍 立体 成 像 系统 和 算法 发 展 。 

飞行 时 间 法 3D 成 像 方法 利用 调制 红外 光 来 照射 物体 和 场景 ， 计 算 光 从 成 像 设 备 出 发 后 
经 物体 或 场景 反射 后 回 到 光源 的 往返 时 间 ( 常 采 用 相 移 测量 技术 5 ) ， 测 出 物体 各 点 的 距 
离 ， 由 此 获得 景深 映射 。 这 套 系统 通常 具备 全 场 范围 成 像 能 力 ， 包 括 已 调幅 的 照射 源 和 图 像 
传 感 需 阵列 。 

图 4.4 说 明了 将 反射 光学 信号 的 相 移 转换 为 点 的 距离 的 方法 。 反 射 信号 如 虚线 所 示 ， 已 
经 相对 原 发 出 信号 之 间 有 了 的 相 移 。 该 信号 有 所 衰减 ， 且 检测 设备 也 接受 了 部 分 背景 信 
号 ， 此 处 假设 背景 信号 不 变 。 在 此 配置 下 ， 可 以 计算 出 反射 此 信号 的 物体 的 距离 为 




















振幅 





图 4.4 利用 飞行 时 间 法 测量 技术 实现 3D 成 像 的 原理 。 实 线 绘制 的 正弦 曲线 表示 的 是 经 光源 照射 在 场景 
的 已 调幅 红外 光线 ， 虚 线 绘制 的 曲线 则 是 成 像 设备 检测 到 的 反射 信号 。 此 处 所 示 的 反射 信号 已 有 所 衰减 ， 
与 发 出 信号 之 间 有 一 个 角度 为 $ 的 相对 相 移 ， 且 假设 背景 信号 不 变 。 距 离 或 景深 映射 可 利用 相 移 和 调制 波长 来 确定 
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d= (A,/2) x (0/27) (4.3) 
式 中 ，A ,为 光学 信号 的 调制 波长 。 在 第 7 BEA, Nieuwenhove 会 说 明 飞 行 时 间 法 景深 成 像 及 
涉及 交互 式 显 示 和 系统 应 用 的 系统 设计 。 

一 般 地 ，3D 成 像 设备 的 输出 为 距离 图 像 (也 称 为 景深 映射 )， 通常 还 会 带 有 场景 对 应 
的 彩色 图 人像。 相关 示例 如 图 4.5 所 示 ， 其 中 景深 值 经 过 调整 作为 8 位 图 像 进行 显示 ， 由 此 可 
见 距 离 传 感 设 备 越 近 的 点 就 越 亮 。 如 图 4. 1 的 原理 框图 所 示 ， 利 用 任 一 种 3D 传 感 技术 来 生 
成 图 像 及 距离 或 景深 信息 是 实现 交互 式 显示 的 第 一 步 。 下 一 步 是 使 用 能 够 识别 实时 人 类 行为 
的 算法 ， 并 利用 这 一 数据 进行 输入 。 在 下 一 节 中 ， 我 们 会 介绍 实现 用 于 交互 式 应 用 的 肢体 语 
言 识别 任务 的 方法 。 




















图 4.5 3D 成 像 设 备 的 输出 。 左 图 为 在 3D 传 感 设备 前 一 只 手 的 距离 影像 ， 又 称 为 景深 映射 。 
景深 映射 上 的 灰 度 值 随 着 图 像 上 的 点 远离 传感器 而 降低 ， 较 近 的 物体 亮度 较 高 。 右 图 为 对 应 的 彩色 图 像 。 
TE, 两 幅 图 分 辩 率 不 同 ， 且 经 过 缩放 和 裁剪 

















4.3 姿势 交互 





在 人 与 人 之 间 的 交互 过 程 中 ， 我 们 会 大 量 使 用 手指 、 手 掌 、 头 部 及 身体 其 他 部 位 、 面 部 
表情 以 及 目光 形成 的 姿势 与 动作 ， 就 算 交 流 的 主要 方式 是 语言 的 情况 下 也 仍 是 如 此 。 相 较 而 
言 ， 基 于 鼠标 、 键 盘 甚至 触摸 屏 的 传统 电脑 输入 界面 只 能 提供 有 限 的 交互 体验 。 因 此 ， 如 何 
利用 电脑 视觉 技术 在 人 机 交互 中 添加 姿势 识别 功能 也 是 人 研究 热点 之 一 ， 许 多 学 者 心血 倾注 其 
中 ， 就 是 为 了 能 让 用 户 体验 更 为 自然 、 高 效 。 

采用 姿势 识别 系统 的 总 体 目标 在 于 让 电脑 通过 识别 站 在 交互 式 显 示 屏 前 方 的 人 类 执行 的 
姿势 和 动作 ， 从 而 自动 理解 人 类 动作 、 指 示 和 表达 。 

早期 的 3D 空间 中 ， 人 类 姿势 识别 系统 是 通过 基于 布 满 传 感 顺 的 穿戴 设备 (如 手套 ) K 
现 。 在 市 面 上 出 现 设计 用 于 提供 手 部 姿势 、 位 置 和 方向 信息 反馈 的 数据 手套 商品 之 后 1， 
这 一 方法 在 人 机 交互 研究 者 之 间 颇 为 流行 。 数 据 手套 与 主机 相连 ,佩戴 者 能 够 驱动 交互 式 显 
示 屏 上 的 3D 手 部 模型 ， 在 3D 环境 中 实时 摆弄 物体 。 关 于 基于 手套 的 研究 和 发 展 ,已 经 有 
一 系列 的 综述 文献 在 此 方面 做 了 深度 调查 "1, 1?] 。 

虽然 基于 手套 的 方案 体现 出 了 3D 交互 的 高 效 性 与 泛 用 性 ， 但 如 果 想 要 让 更 多 的 消费 者 
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接受 这 种 操作 方式 ， 则 需要 寻找 一 种 不 需要 在 身上 穿戴 这 类 跟踪 设备 的 无 标记 实现 方案 。 近 
期 在 先进 高 性 价 比 小 型 图 像 设备 方面 的 发 展 ， 高 级 图 案 识 别 算法 ， 以 及 强大 的 计算 资源 ， 使 
得 基于 电脑 视觉 的 自然 姿势 识别 方案 的 实现 成 为 可 能 。 

近年 来 ,已 有 许多 研究 致力 于 使 用 电脑 视觉 技术 (基于 实时 捕捉 和 2D 及 3D 图 像 序列 
分 析 的 建 模 和 统计 方法 ) 进行 人 类 姿势 识别 ， 在 这 方面 有 大 量 的 文献 详细 说 明了 研究 结果 ， 
同时 还 有 大 量 的 综述 与 调查 3-16] 。 广 义 上 来 说 ， 这 类 算法 可 以 分 为 两 大 类 : 使 用 人 类 手掌 
与 躯体 形状 及 骨骼 模型 的 基于 3D 模型 的 技术 ,以 及 使 用 从 手掌 或 身体 其 他 部 分 视觉 图 像 中 
获取 的 2D 灰 度 图 像 序列 或 低 等 级 特征 的 基于 视图 的 技术 。 这 两 种 方法 各 有 其 优 劣 之 处 ， 最 
优化 的 解决 方案 应 是 各 取 两 者 优势 而 成 的 混合 方法 。 图 4.6 说 明了 基于 视觉 的 姿势 识别 流程 
基本 算法 的 步骤 和 流程 。 




















用 户 做 出 手 = 实时 视觉 图 像 序 
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图 4.6 基于 视觉 的 姿势 识别 流程 基本 算法 的 步 台 和 流程 的 框图 





该 流程 从 实时 获取 用 户 的 视觉 图 像 开 始 , 在 3D 空间 中 为 姿势 提供 输入 。 接 收 到 输入 的 
视觉 图 像 之 后 ， 第 一 步 是 将 目标 物体 局 部 化 并 分 割 成 多 个 部 分 ， 例 如 用 于 识别 姿势 的 手 部 或 
用 于 识别 表情 的 面部 。 传 统 基于 2D 摄像 头 的 系统 会 使 用 色彩 或 动作 线索 来 进行 图 像 分 割 ， 
不 过 这 种 方法 会 因为 背景 色彩 及 环境 光 条 件 多 变 且 无 法 预测 而 错误 率 较 高 。 使 用 如 前 一 节 中 
介绍 的 3D 传 感 摄像 头 ， 就 能 多 提供 一 种 重要 的 线索 (例如 手 与 成 像 设备 之 间 的 距离 ， 可 供 
初始 检测 及 跟踪 使 用 ) ， 同 时 还 能 根据 景深 进行 分 割 。 

Van den Bergh 和 VanGool 的 实验 可 作为 例证 之 一 。 他 们 的 实验 说 明了 在 实时 姿势 识别 
的 应 用 方面 ， 采 用 景深 摄像 头 进行 手 部 分 割 取 得 的 效果 较 基 于 色彩 的 方法 更 好 135] 。 如 图 
4.7 所 示 ， 采 用 色彩 概率 方法 在 手 部 与 面部 重 且 的 时 候 无 法 准确 区 分 手 部 与 面部 ， 但 在 加 入 
基于 景深 的 闪 值 移 除 面部 之 后 ， 就 能 够 获得 准确 的 分 割 结 果 。 

在 完成 目标 物体 的 识别 和 分 割 之 后 ， 便 会 从 图 像 中 抽取 特定 的 特征 ， 例 如 轮廓 、 边 缘 ， 
或 是 诸如 指 尖 、 面 部 、 肢 体 剪 影 之 类 的 特殊 特征 。 通 常会 专门 为 目标 姿势 开发 一 种 数学 模 
型 ， 其 中 会 包括 该 姿势 的 时 间 和 空间 属性 ， 加 入 一 系列 参数 之 后 形成 建 模 。 在 特征 检测 与 提 
取 流 程 之 后 ， 会 利用 从 图 像 中 提取 的 特征 计算 这 一 模型 中 的 各 个 参数 。 最 后 ， 通 过 对 在 分 析 
步 又 中 估算 出 来 的 模型 参数 进行 分 类 和 解释 ， 识 别 出 用 户 做 出 的 姿势 。 

基于 3D 模型 的 方法 早期 研究 主要 致力 于 找到 适用 于 3D 手 部 或 躯体 模型 的 运动 学 参数 ， 
使 得 模型 的 2D 投影 几何 图 形 能 够 准确 符合 对 应 的 基于 边缘 的 图 案 !8] 。 简 单 来 说 ， 只 有 保 
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图 4.7 将 景深 和 彩色 图 像 用 于 手 部 区 分 的 示例 。 左上: 从 RGB 图 像 中 获得 的 肤色 概率 。 
左下 : 加 入 准 值 移 除 包括 脸 部 在 内 的 背景 之 后 的 手 部 景深 图 像 。 右 上 : 仅 包含 利用 浆 值 景深 几 像 确定 
的 前 景 像素 中 的 肤色 概率 。 右 下 : 合成 结果 ， 显 示 分 割 出 来 的 手 部 。 

HV; Van den Bergh & Van Gool 2001 。 转 载 已 获 IEEE 许可 








证 关节 模型 的 外 观 与 所 捕捉 的 图 像 相 似 ， 才 能 确保 3D 模型 的 参数 一 致 。 在 这 类 建 模 过 程 
中 ， 所 使 用 的 模型 可 分 为 立体 模型 与 骨骼 模型 两 类 。 立 体 模 型 基本 上 就 是 用 一 系列 彼此 相 
连 ， 直 径 、 高 度 有 异 的 圆柱 体 来 代表 人 类 手 部 或 躯体 。 这 一 类 模型 的 匹配 训练 目标 就 是 确定 
这 些 圆 柱 体 的 参数 ， 使 得 3D 模型 能 够 对 应 上 所 记录 的 图 像 。 

与 之 相对 ， 骨 骼 模型 则 包含 基于 关节 角度 和 线段 长 度 的 参数 。 不 管 是 哪 一 类 模型 ， 使 用 
基于 生理 学 的 约束 条 件 来 限制 自由 动作 的 角度 范围 ， 使 之 与 人 体 解 剖 学 一 致 ， 有 助 于 限制 分 












































析 空 间 。 图 4. 8 展示 了 同一 种 人 类 手势 用 不 同 模型 模拟 出 来 的 情况 !31 。 
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a) b) c) d) e) 
图 4.8 同一 种 手势 的 不 同 手 部 模型 : a) 3D 纹理 立体 模型 ，b) 线 框 3D 模型 ， 
c) 3D 骨骼 模型 ，d) 2D 剪影 ，e) 2D 轮廓 或 边缘 。 
来 源 : Pavlovic, Sharma and Huang 1997。 转载 已 获 IEEE 许可 
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最 近 ，Stenger 等 学 者 使 用 了 一 种 基于 卡尔 曼 (Kalman) 滤波 的 方法 来 估计 人 类 手掌 的 
姿势 ， 这 种 方法 能 够 将 3D 手掌 模型 的 2D 投影 与 从 手掌 图 像 中 提取 出 来 的 轮 廊 之 间 的 几何 
偏差 降 到 最 低 19] 。 虽 然 基 于 3D 模型 的 方法 计算 量 巨大 ， 但 这 种 方法 在 人 机 交互 中 的 泛 用 
性 已 取得 广泛 认可 [91 。 

随 着 低能 耗 、 低 成 本 的 景深 传 感 摄像 头 的 出 现 ， 也 有 许多 学 者 开始 研究 更 为 高 效 及 稳定 
的 方法 。 例 如 ，Melax 等 学 者 最 近 报告 了 一 种 计算 方面 更 为 高 效 的 方法 ， 能 够 实现 手 部 的 3D 
模型 与 通过 3D 成 像 设 备 获 取 的 景深 图 像 或 3D 点 阵 云 按 帧 匹配 ， 同 时 能 够 添加 基于 生理 学 
确定 的 约束 条 件 来 追踪 手 部 及 个 别 手指 的 动作 ， 就 算 偶 有 遮挡 也 能 实现 中。 正如 图 4.9 所 
示 ， 该 方法 能 够 在 配备 了 实时 3D 传 感 设备 的 交互 式 显 示 系 统 可 视 地 表示 3D 空间 中 物体 的 
操作 。 类 似 地 ， 也 有 人 报告 了 利用 景深 摄像 头 捕 提 的 实时 距离 数据 来 稳定 跟踪 人 体 姿 势 的 
PEPI, 
































图 4.9 一 种 基于 3D 关节 模型 的 手 部 骨骼 跟踪 技术 ， 能 够 在 3D 空间 中 对 物体 实现 细致 多 样 操作 。 
加 入 生理 学 约束 之 后 ， 手 部 的 3D 模型 能 够 匹配 由 景深 传 感 设备 获取 的 景深 映射 或 点 阵 云 























虽然 基于 观察 (又 称 为 基于 外 观 ) 的 方法 有 文章 报告 其 计算 量 比 基 于 模型 的 方法 要 小 ， 
但 普遍 认为 这 种 方法 不 像 基于 3D 模型 的 技术 达到 的 效果 那样 能 够 普遍 适用 ， 因 此 也 发 现 了 
一 些 人 机 交互 方案 的 应 用 方面 相对 受 限 的 地 方 。 不 过 今年 来 有 越 来 越 多 的 人 报告 了 采用 这 种 
方法 的 喜人 进展 。 

整体 来 说 ， 这 种 方法 会 预先 定义 一 系列 代表 各 种 姿势 的 模板 ， 然 后 将 这 些 模板 与 视觉 图 
像 或 特征 进行 比较 。 大 多 数 早期 研究 重心 主要 放 在 相对 简单 的 情况 ， 例 如 使 用 从 通用 物体 识 
别 方案 改进 而 来 的 算法 对 静态 手势 进行 识别 。 然 而 ， 要 想 实 现 自然 的 人 机 交互 ， 仅 实现 静态 
姿势 的 识别 还 远 远 不 够 ， 必 须 能 够 识别 动态 姿势 才能 够 真正 了 解 人 类 动作 的 意图 。 在 此 共识 
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下 ， 从 事 这 方面 的 学 者 报告 了 许多 基于 统计 建 模 的 方法 和 图 像 处 理 及 规律 识别 的 技术 ， 以 实 
现 人 类 姿势 、 手 势 以 及 动作 的 自动 识别 ， 包 括 使 用 系列 训练 数据 的 主 成 分 分 析 法 、 隐 马尔 可 
夫 模 型 、 卡 尔 曼 滤波 、 粒 子 滤 波 、 条 件 密度 转移 (“Condensation”) 算法 、 有 限 状态 机 技 
术 等 [2 -2] | 

要 将 基于 姿势 的 交互 集成 到 实际 应 用 中 ， 就 需要 仔细 考虑 物理 交互 的 人 为 因素 方面 ， 才 
能 保证 用 户 体验 的 舒适 、 直 观 。 具 体 姿 势 的 含义 解读 和 内 涵 表 示 属 于 纯粹 主观 方面 的 认识 ， 
同样 的 意图 ， 不 同 的 人 可 能 就 会 用 不 同 的 姿势 进行 表达 ， 而 就 算是 同一 个 人 ,根据 时 间 和 场 
合 的 不 同 ， 其 使 用 的 姿势 也 会 有 所 差异 。 不 少 研究 者 已 经 对 人 类 动态 行为 进行 了 详尽 分 析 并 
做 了 报告 [30,311 。 

进行 姿势 识别 研究 的 一 种 有 效 方法 ， 便 是 先 理解 人 类 动态 行为 并 对 其 进行 建 模 ， 然 后 接 
着 根据 姿势 动作 开发 用 于 识别 用 户 行为 的 算法 。 这 就 是 基于 隐 马 尔 可 夫 模 型 方法 背后 的 原理 
所 在 : 将 人 类 行为 作为 一 个 大 型 的 心理 或 意图 状态 集合 ， 每 个 个 人 控制 特征 和 状态 间 转 变 的 
统计 学 概率 都 代表 了 一 种 状态 '>-”]。 简 单 来 说 ， 我 们 下 一 刻 要 做 的 事情 ， 是 我 们 现在 这 个 
时 刻 行为 的 平滑 转变 ， 由 于 紧 接着 当前 动作 之 后 通常 都 会 有 一 系列 未 来 动作 可 供 选 择 ， 所 以 
这 一 转变 就 可 以 用 一 个 统计 学 概率 来 表示 。 所 以 ， 理 解 人 类 利用 姿势 进行 交互 的 意图 ， 就 包 
括 对 当前 手 部 与 手指 姿势 的 识别 ， 以 及 对 于 接 下 来 可 能 动作 集合 的 预测 。 

以 Pentland 的 成 果 为 例 ， 这 个 研究 的 模型 基础 是 ， 皮 质 处 理 的 基本 元 素 能 够 用 卡尔 曼 滤 
波 进行 描述 ， 且 各 元 素 之 间 可 以 相互 联系 ， 构 成 更 大 的 行为 集合 :的 ] 。 依 照 这 一 假设 ， 他 们 
将 人 类 动态 行为 描述 为 一 个 以 卡尔 曼 滤波 表示 的 动态 模型 集合 ， 彼 此 之 间 以 马尔 可 夫 概 率 转 
变 链 相连 ， 并 说 明了 这 一 技术 在 根据 汽车 驾驶 员 最 初 的 准备 动作 预测 其 行为 方面 的 成 果 。 同 
样 的 方法 也 适用 于 普通 的 人 机 界面 和 交互 。 图 4. 10 便 是 对 此 模型 的 概念 说 明 ， 表 示 了 用 一 
个 之 间 以 概率 转变 相连 且 彼 此 互 异 的 多 状态 马尔 可 夫 动 态 模型 对 一 个 特定 人 类 行为 链 进行 描 
述 的 图 示 。 通 常 来 说 ， 每 个 状态 下 面 也 会 含有 一 系列 的 子 状态 ， 表 明 人 类 行为 潜在 的 数学 模 
型 的 复杂 性 。 对 用 户 行为 的 识别 ， 加 上 对 用 户 后 续 动 作 的 成 功 预期 与 预测 ， 能 够 提高 系统 对 


人 类 姿势 输入 的 反应 速度 ， 让 交互 体验 更 为 流畅 。 
完成 行为 
-CC 
图 4. 10 使 用 马尔 可 夫 动 态 模型 对 人 类 行为 链 进行 解释 的 简化 概念 示意 图 。 


休眠 状态 | 开始 行为 j 执行 行为 | 
各 个 主要 状态 之 间 通 过 状态 间 转 化 概率 相互 连接 。 每 个 状态 中 包含 若干 相互 连接 的 子 状态 。 
顺畅 的 姿势 动作 识别 系统 ， 应 包含 对 当前 姿势 及 预测 的 解析 ， 以 及 对 下 一 行为 集合 的 预测 






































































































































如 今 致力 于 人 机 交互 研究 的 学 者 除了 继续 发 展 传 感 技 术 和 识别 算法 之 外 ， 也 在 继续 研究 
适用 于 交互 式 显示 屏 和 系统 的 肢体 动作 界面 及 分 类 i ”] 。 作 为 人 类 间 交 流 的 一 部 分 ,我们 
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通常 会 做 出 某 些 非 特定 的 姿势 ， 要 连同 当时 所 说 的 口头 语言 才能 了 解 其 中 意图 ， 例 如 说 话 的 
时 候 在 空间 中 挥手 或 摆手 指 。 从 本 质 上 面 来 说 ， 这 类 肢体 动作 并 没有 严格 定义 ， 通 常 是 在 无 
意识 的 情况 下 做 出 ， 且 其 中 含义 会 因 人 和 环境 而 异 。 同 时 ， 我 们 经 常 也 会 做 出 某 些 刻意 的 次 
势 ， 意 在 表达 特定 的 交流 内 容 或 指示 ， 这 些 行 为 有 可 能 是 独立 做 出 的 沟通 行为 ， 也 可 能 是 用 
来 强调 口头 交流 的 内 容 。 

从 实施 人 机 交互 的 角度 来 看 ， 此 领域 研究 中 更 为 注重 的 是 后 面 这 一 类 的 姿势 表达 。 以 推 
进 人 机 交互 朝 着 人 与 人 之 间 自 然 沟 通 交 流 方向 为 目标 的 Quek 等 学 者 在 总 结 了 现 有 人 类 姿势 
解析 研究 成 果 之 后 ， 从 广义 上 将 姿势 实现 分 为 两 大 类 : 姿势 比 对 与 姿势 摆弄 (3?]。 姿 势 比 对 
方法 会 使 用 一 系列 抽象 的 静态 或 动态 手势 或 姿势 当 作 字典 ， 然 后 系统 的 设计 思路 为 ， 记 录 所 
执行 的 手势 或 姿势 ， 然 后 将 之 与 这 一 预先 定义 的 姿势 库 进 行 比 对 ， 找 出 最 接近 的 匹配 条 目 。 
从 实际 结果 来 看 ， 这 个 方法 能 够 实现 的 ， 只 有 人 们 在 现实 世界 日 常生 活 交 互 过 程 中 每 天 使 用 
的 各 类 姿势 里 的 一 小 部 分 子 集 。 

另 一 方面 ， 姿 势 摆 弄 的 方法 则 会 让 用 户 利 用 手 部 或 肢体 动作 在 交互 式 显示 屏 上 操控 虚拟 
物体 ， 用 户 的 实时 操作 会 影响 到 屏幕 上 显示 的 物体 的 移动 。 虽 然 基 于 姿势 摆弄 的 方法 较 姿 势 
比 对 来 说 灵活 性 更 高 ， 但 Quek 和 Wexelblatl32, 331 同时 也 指出 了 当前 的 实现 方法 与 我 们 在 对 
话 和 自然 交互 中 的 行为 比较 时 出 现 的 不 足 。 虽 然 专门 为 特定 系统 或 应 用 做 过 优化 的 实现 方法 
在 这 些 系统 或 应 用 上 的 表现 还 算 理 想 ， 但 研究 的 目标 始终 还 是 开发 出 更 为 灵活 的 方法 ， 能 
让 人 类 使 用 自然 、 直 观 的 日 常 交 互 姿势 与 交互 式 显示 屏 上 的 内 容 进 行 交 互 成 为 可 能 。 

虽然 早期 的 研究 和 实现 方法 大 多 数 只 着 上 腿 于 彩色 图 像 的 获取 、 分 析 和 解释 方面 ， 但 在 追 
加 使 用 景深 摄像 头 提 供 的 范围 数据 之 后 ， 也 能 够 得 出 相对 更 为 稳定 、 有 效 的 算法 路 
径 [34-3]。 最近 在 3D 传 感 、 建 模 和 推理 算法 以 及 用 户 界面 方面 的 进展 ， 清 楚 表明 我 们 能 
在 不 远 的 将 来 离 达到 自然 交互 的 目标 更 进一步 。 

我 们 在 日 常 与 其 他 人 类 进行 交流 的 时 候 ， 除 了 利用 手 、 手 指 和 其 他 肢体 做 出 姿势 之 外 ， 
我 们 还 会 广泛 使 用 眼神 、 面 部 表情 。 在 第 8 章 中 ，Drewe 对 眼神 跟踪 技术 、 算 法 以 及 使 用 基 
于 眼神 交互 的 应 用 进行 广泛 说 明 。 

在 电脑 视觉 领域 , 对 于 人 类 面部 及 面部 表情 的 检测 和 识别 也 是 学 者 广泛 人 研究 的 方向 之 
一 058 -45] 。 在 第 10 章 中 ，Poh 等 学 者 对 作为 多 模 态 生物 识别 技术 一 部 分 的 面部 识别 技术 进 
行 了 综述 。 在 面部 检测 和 识别 之 外 ， 我 们 还 必须 强调 面部 表情 在 多 模 态 人 类 交流 过 程 中 的 重 
要 性 ， 这 是 因为 通过 面部 姿势 表达 出 来 的 情感 ， 能 够 增强 或 改变 通过 话语 或 手势 传达 出 来 的 
交流 含义 。 这 也 难怪 我 们 在 交谈 过 程 中 为 什么 总 是 试图 直 视 对 方 ， 因 为 这 样 才 能 准确 了 解 对 
TWEE 

针对 自动 解析 人 类 面部 表情 的 算法 研究 的 早期 成 果 是 根据 传统 的 2D 图 像 和 基于 灰 度 的 
分 析 得 出 ， 近 年 来 已 有 一 系列 针对 这 一 方面 的 详细 综述 文章 发 表 可 供 参考 1%, 41] 。 最 近 ， 在 
利用 3D 模型 和 通过 3D 传 感 设 备 生成 的 点 阵 云 数据 方面 也 有 所 进展 所 -和 5] 。 例 如 ，Wang 等 
学 者 报告 了 一 种 提取 原始 3D 面部 表情 特征 ， 并 在 经 过 非 个 人 相关 的 表情 识别 方法 处 理 后 用 
来 对 表情 进行 分 类 的 方法 ,他 们 的 成 果 如 图 4. 11 HR, 
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图 4.11 上 图 是 由 Wang 等 开发 的 3D 面部 范围 模型 示例 ， 共 有 6 种 表情 : HR, a, HR TP a, 
以 及 惊吓 (MESA). ERR 1 行 是 纹理 模型 ， 第 2 行 则 是 对 应 的 着 色 模 型 。 来 源 : Wang, Yin, 
Wei and Sun 2006。 转 载 已 获 IEEE 许可 。 下 图 是 Mpiperis 等 在 面部 及 表情 识别 中 使 用 的 3D 面部 模型 方法 。 
左 侧 是 最 初 的 3D 网 格 模型 。 中 间 是 使 用 3D 成 像 技术 捕捉 的 人 类 脸 部 3D 表面 。 右 侧 是 3D 网 格 模型 贴 合 
至 3D 表面 后 的 效果 。 来 源 : Mpiperis, Malassiotis, Strintzis 2008, 转载 已 获 IEEE 许可 










































































另外 一 个 例子 则 是 Mpiperis 等 学 者 报告 的 能 够 同时 达成 无 关 个 人 的 面部 表情 识别 及 无 关 
表情 的 面部 识别 的 基于 3D 模型 的 方法 [*] 。 如 图 4. 11 所 示 ， 这 种 方法 将 可 变形 的 面部 表面 
网 格 模型 贴 合 至 通过 3D 传感器 从 人 类 面部 获取 的 3D 点 阵 云 上 。 原 本 的 网 格 模型 设计 为 中 
性 ， 且 在 获得 需 研 究 的 面部 的 3D 点 阵 云 ， 并 将 这 一 网 格 模型 贴 合 上 去 之 后 ， 它 也 能 符合 所 
表现 出 来 的 表情 。 然 后 这 一 面部 表情 会 通过 数学 方法 进行 识别 ， 在 先前 确定 的 集合 中 寻找 对 
应 项 目 。 如 今世 界 上 许多 实验 室 还 在 继续 对 算法 进行 研究 ， 也 不 断 取 得 进展 ， 若 能 将 面部 表 
情理 解 与 手 部 及 身体 胶体 语言 识别 技术 相 结合 ， 就 一 定 能 在 用 于 未 来 的 交互 式 显示 天 与 系统 
上 的 基于 视觉 的 人 类 界面 方案 带 来 重大 补 强 。 








4.4 结语 








能 够 理解 人 类 在 3D 环境 中 以 自然 方式 表达 的 行为 和 指令 并 对 其 进行 回应 的 电脑 ， 早 已 
出 现在 科幻 先锋 的 畅想 之 中 。 例 如 在 2002 年 上 映 、 由 史 带 夫 . 斯 皮尔 伯 格 执导 、 广 受 好 评 
的 美国 科幻 电影 《少数 派 报 告 》 中 ， 就 描绘 了 一 个 2054 年 的 未 来 世界 ， 其 中 已 有 通过 立体 
界面 进行 操作 的 电脑 ， 用 户 在 面前 的 3D 空间 中 通过 手势 与 显示 屏 上 的 多 媒体 内 容 互 动 。 虽 
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然 这 只 是 对 彼 时 未 来 技术 的 大 胆 预想 ， 但 如 今 的 科学 家 和 工程 师 却 已 经 开发 出 了 相应 的 技术 
和 系统 ， 或 许 能 够 提前 数 十 年 实现 这 一 梦想 。 实 际 上 ， 现 实 世 界 的 实现 手段 已 经 更 为 简洁 ， 
随 着 电脑 视觉 技术 的 发 展 ， 将 来 就 能 与 电影 里 面 一 样 ， 不 穿戴 任何 手套 或 其 他 设备 直接 通过 























3D 肢体 动作 与 电脑 进行 交互 。 


在 本 章 中 ， 我 们 综述 了 基于 视觉 的 3D 传 感 和 交互 技术 的 发 展 。 虽 然 电 脑 视 


























觉 方面 的 研 


究 早 期 成 果 大 多 数 都 是 通过 对 利用 2D 摄像 头 获 取 的 灰 度 图 像 进行 分 析 而 得 ， 最 近 3D 成 像 
技术 的 发 展 使 得 景深 映射 和 3D 点 阵 云 的 高 效 和 实时 获取 成 为 可 能 。 另 一 方面 ， 姿 势 识别 算 
法 方面 的 研究 ， 无 论 是 基于 3D 模型 的 方法 还 是 基于 图 像 或 特征 的 方法 ， 部 在 近年 取得 显著 
















































































进展 。 这 些 成 果 ， 再 加 上 人 类 动态 行为 的 理解 与 建 模 方面 的 研究 ， 让 在 交互 式 


显示 屏 前 的 











3D 空间 进行 自然 人 机 交互 进一步 成 为 现实 。 能 够 “感应 ”到 我 们 手指 触 控 的 交互 式 ! 
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经 无 处 不 在 ， 如 今 再 加 上 先进 的 视觉 传 感 和 识别 技术 ， 让 新 一 类 能 够 “看 见 ” 并 “理解 ” 








面前 的 3D 空间 中 用 户 行为 的 交互 式 显示 屏 的 研发 成 为 可 能 。 
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5.1 引言 








随 着 近期 3D 计算 方法 的 不 断 进步 ， 动 态 实时 3D 传 感 在 许多 领域 已 经 变 得 至 关 重 要 
(如 制造 业 、 医 学 、 电 脑 科 学 、 国 土 安全 和 娱乐 ) 。3D 传感器 也 开始 成 为 在 显示 器 上 进行 3D 
互动 的 常用 工具 。 微 软 公司 的 Kinect 就 是 一 个 很 好 的 例子 。 

3D 传 感 技术 在 过 去 数 十 年 里 不 断 进 步 ， 最 近 几 年 更 是 进展 飞速 。 许 多 技术 得 以 开发 ， 
包括 飞行 时 间 法 、 立 体 观 察 、 时 空 立体 观察 、 结 构 光 、 数 字 全 息 术 和 数字 条 纹 投 影 。 每 种 科 
技 开发 的 初衷 都 是 满足 特定 需求 ， 并 在 专门 应 用 领域 发 挥 绝 佳作 用 ， 但 是 总 的 来 说 没 用 一 种 
单一 技术 能 与 3D 传 感 的 巨大 需求 相 匹 配 。Zhang (2013) [编制 了 一 本 集合 了 各 主要 3D 传 
感 技术 的 手册 ， 这 为 工程 师 选 择 适当 的 技术 以 满足 特定 需求 提供 了 灵感 。 

不 管 是 在 科学 研究 领域 还 是 在 工业 实践 领域 ， 结 构 光 方法 都 有 望 成 为 最 重要 的 3D 传 感 
技术 之 一 。 实 时 3D 传 感 在 最 近 几 十 年 实现 并 成 为 一 项 主流 技术 ， 是 因为 今天 的 个 人 电脑 具 
备 强 大 的 计算 能 力 ， 可 以 满足 实时 传 感 对 于 计算 的 高 要 求 。 甚 至 平板 电脑 也 具备 了 满足 这 样 
需求 的 计算 速度 。 

实时 3D 传 感 通常 是 指 以 至 少 24Hz 的 速度 获取 、 处 理 和 再 现 感知 到 的 3D 数据 。 虽 然 面 
临 着 严峻 的 挑战 ， 但 是 过 去 几 年 中 不 断 发 展 的 扫描 技术 ， 包 括 微软 公司 的 Kinect 和 一 些 由 美 
国 爱 荷 华 州 立 大 学 开发 的 技术 已 经 解决 了 这 些 挑战 。 有 趣 的 是 ， 几 乎 所 有 的 实时 3D 传 感 技 
术 都 是 光学 方法 ， 这 意味 着 现场 捕捉 不 需要 与 传感器 物理 接触 。 然 而 ， 因 为 都 是 基于 光学 原 
理 的 ， 所 以 这 些 系统 很 难 传 感 到 具有 某 些 光学 特征 的 表面 (比如 发 光 的 、 透 明 的 或 者 纯 黑 
色 的 ) 。 

在 这 些 结 构 光 方法 中 ， 数 字条 纹 投 射 (DFP) 技术 较为 独特 ， 因 为 其 结构 化 模型 呈现 正 
弦 并 由 激光 干涉 仪 产 生 。 相 较 其 他 的 结构 光 技 术 ，DFP 技术 已 经 被 证 明 具 有 压倒 性 优势 ， 并 
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只 有 在 实际 应 用 中 有 用 武之 地 ， 实 时 3D 传 感 技术 才能 进一步 发 展 。 人 机 交互 就 是 3D 
传 感 技术 的 一 项 重要 应 用 ， 与 计算 机 交互 对 响应 速度 要 求 很 高 ， 因 此 它 在 本 质 上 是 实时 的 。 
大 多 数 高 分 辩 率 的 实时 3D 传 感 技 术 不 仅 能 捕捉 黑白 纹理 ， 还 能 捕捉 带 有 方向 性 光 的 纹理 。 
这 在 人 机 交互 应 用 领域 可 能 还 不 理想 ， 因 为 在 应 用 中 需要 纹理 的 自然 色 。 本 章 将 展示 我 们 研 
发 的 运用 近 红 外 (NIR) 光 进 行 3D 传 感 和 实时 同步 捕捉 自然 色 纹 理 的 技术 。 

由 于 数字 视频 投影 仪 的 速度 上 限 ， 典 型 的 结构 光 方 法 的 速度 可 以 达到 120Hzl4] 。 此 外 大 
多 数 视频 投影 仪 是 非 线性 的 ， 没 有 非 线性 校准 和 修正 ， 难 以 生成 高 质量 的 相位 。 虽 然 很 多 非 
线性 的 校准 技术 已 经 开发 出 来 了 -1， 也 通过 实践 证 明 可 行 ， 但 我 们 发 现 问 题 没 那么 简 
单 ， 因 为 投影 仪 的 非 线性 伽 马 实际 上 会 随 着 时 间 改 变 。 

平方 二 进 制 散 焦 技 术 提 出 的 初衷 是 克服 传统 的 DFP 技术 的 局 限 性 :1。 平方 二 进 制 散 焦 
技术 只 需要 1 位 二 进 制 结构 化 模型 ， 而 不 是 8 位 的 灰 度 模型 。 于 是 在 定位 远离 投影 仪 焦 平面 
的 物体 时 ， 正 弦 条 纹 模型 就 自然 融合 在 一 起 了 。 该 技术 因为 只 用 到 两 个 灰 度 值 ， 所 以 不 被 投 
影 仪 的 非 线 性 影响 。 此 外 ， 因 为 只 需要 1 位 结构 化 模型 ， 二 进 制 散 焦 技术 大 大 降低 了 数据 传 
输 率 ， 从 而 使 得 大 于 120Hz 的 3D 形状 测量 速度 成 为 可 能 。 利 用 数字 光学 处 理 (DLP) 发 现 
平台 ，Zhange 等 学 者 (2010) 5193] 成 功 地 开发 出 实现 数 万 赫 效 的 3D 形状 测量 速度 的 系统 。 本 
章 也 将 对 我 们 在 超 高 速 3D 传 感 方面 取得 的 进步 进行 说 明 。 

本 章 综述 了 结构 光 技 术 的 原理 。 应 该 强调 的 是 ， 本 章 提 到 的 大 部 分 技术 已 经 在 会 议论 文 
集 或 期 刊 上 发 表 。 本 章 绝 不 是 实时 3D 形状 测量 技术 的 详尽 调查 。 它 关注 的 是 我 们 过 去 数 年 
一 直 在 探索 的 技术 ， 并 仰赖 于 先前 的 研究 出 版 物 上 43-5] 。 

5.2 节 综 述 了 结构 光 方 法 ， 并 总 结 了 过 去 几 年 里 开发 出 来 的 结构 光 模 型 。5. 3 节 探 讨 了 
对 结构 光 系 统 的 校准 问题 。5. 5 节 举 例 说 明了 如 何 运用 结构 光 方 法 进行 3D 传 感 。5.6 节 揭 
示 了 实时 3D 传 感 人 机 互动 的 潜在 应 用 领域 。5.7 节 讨 论 了 我 们 近期 在 使 用 二 进 制 散 焦 超 高 
速 3D 传 感 方面 的 研究 。5. 8 节 对 本 章 进 行 了 总 结 。 























5.2 结构 化 图 案 汇 编 





光学 3D 传 感 方法 由 于 其 无 创 性 而 被 广泛 使 用 ， 在 这 种 情况 下 ， 不 能 用 物理 方法 测量 被 
捕获 的 表面 。 立 体 视 觉 技 术 使 用 两 个 相机 从 不 同 视角 捕获 两 个 2D 图 像 ， 这 是 模拟 与 人 类 视 
觉 相同 的 过 程 。 景 深信 息 通 过 三 角 测量 来 恢复 ， 这 可 以 通过 知道 两 个 摄像 机 之 间 的 对 应 点 来 
完成 。 在 识别 两 个 二 维 图 像 之 间 的 相应 对 以 恢复 景深 的 情况 下 ， 如 果 物 体 表 面 没有 强烈 的 纹 
理 变 化 ， 则 立体 视觉 技术 难以 达到 高 精度 。 例 如 ， 该 方法 不 能 从 两 个 均匀 的 白色 平坦 表面 获 
得 任何 景深 信息 ， 因 为 每 个 纹理 中 的 纹理 看 起 来 大 致 相同 。 有 关 这 些 技术 的 详细 讨论 可 以 在 
AS a 73 — EPRE], 

结构 光 系统 在 某 种 意义 上 是 相似 的 ,但 是 不 使 用 两 个 2D 相机 ， 而 是 使 用 一 个 投影 仪 和 
一 个 相机 。 投 影 仪 投影 某 些 类 型 的 编码 结构 化 图 案 以 轻松 确定 对 应 关系 。 对 于 结构 光 系统 ， 
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结构 化 图 案 设计 是 决定 最 终 可 实现 的 分 辨 率 、 速 度 和 准确 性 的 关键 因素 之 一 。 本 节 回 顾 了 几 
个 广泛 使 用 的 结构 化 图 案 编码 。 


5.2.1 2D 伪 随 机 汇编 


结构 光 技 术 已 经 被 广泛 研究 并 应 用 于 计算 机 视觉 、 机 器 视觉 和 光学 测量 等 领域 。 结 构 光 
技术 与 之 前 提 到 的 立体 观察 方法 相似 ， 除 了 其 中 一 个 摄像 头 换 成 了 投影 仪 !7]。 要 在 摄像 头 
和 投影 仪 的 像素 之 间 建 立 点 对 点 的 映射 ， 一 个 自然 的 方法 是 对 被 投影 的 画面 进行 编码 ， 过 程 
中 通过 整个 画面 的 x 和 y 轴 上 像素 都 是 唯一 的 。 也 就 是 说 ， 每 一 个 像素 可 以 被 上 面 的 信息 所 
pric!) 。 运 用 生成 伪 随 机 图 案 或 通过 使 用 激光 源 产 生 的 自然 散 斑 图 案 等 方法 已 经 得 以 研 
发 018] 。 图 5.1 展示 了 用 于 3D 传 感 的 图 案 。 

在 伪 随 机 二 进 制 阵列 的 方法 中 ,六 x ny 阵列 通过 一 个 伪 随 机 序列 解码 ， 以 确保 ky x ky 
在 阵列 的 任意 位 置 上 的 任意 核 都 是 唯一 的 。 这 个 伪 随 机 序列 解码 的 n, xn, 阵列 是 通过 本 原 
ZME n 的 方法 派生 的 ， 用 数学 表达 就 是 




















2” -1 =2%% -1 (5.1) 
ni =2% -1 (5.2) 
n? =2"-1/n, (5.3) 





a) 
到 5.1 伪 随 机 图 案 示例 。a) 微软 Kinect 使 用 的 伪 随 机 图 案 ; b) 伪 随 机 图 案 伴随 镭射 光 的 自然 出 现 。 
来 源 ，Steve Jurvetson |! 




















微软 公司 的 Kinect 是 目前 流行 消费 产品 运用 伪 随 机 汇编 方法 执行 计算 机 视觉 的 绝 佳 例 
证 。 试 想 有 一 个 红外 投影 仪 、 一 个 红外 摄像 涉 ， 一 束 由 投影 仪 投射 出 来 的 红外 光 通 过 衍射 光 
栅 ， 从 而 把 光线 聚焦 成 一 组 红外 点 中 。 伪 随机 分 布 图 案 被 设备 的 红外 线 摄像 头 捕捉 ， 因 为 
设备 知悉 被 投影 的 图 案 ，3D 场景 可 以 以 三 角 测 距 的 方式 构造 。 虽 然 这 项 技术 的 特定 实施 细 
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节 具 备 了 专利 ， 但 在 更 高 的 层面 上 ， 这 种 技术 和 其 他 结构 光 方 法 是 相似 的 。 

总 的 来 说 ， 伪 随机 汇编 方法 的 优势 是 容易 理解 、 容 易 实 现 3D 传 感 。 但 是 这 项 技术 也 有 
不 足 ， 例 如 ， 对 噪声 的 忍耐 度 不 高 。 此 外 ， 实 现 高 空间 分 辩 率 也 比较 难 ， 因 为 投影 仪 在 ”和 
"方向 上 的 分 辩 率 都 是 有 限 的 。 

事实 证 明 ， 在 结构 光 系统 正确 校准 的 情况 下 ， 没 有 必要 通过 建立 2D 的 独立 相关 性 来 实 
现 3D 传 感 。 换 言 之 ,要 在 结构 光 系 统 中 确定 xyz 坐标 ， 除 了 已 校准 的 系统 约束 方程 式 之 外 ， 
只 需要 一 个 额外 的 约束 方程 式 (将 在 5.3 节 中 讨论 )。 

因此 ， 结 构 化 图 案 可 以 在 一 个 方向 上 改变 ， 但 在 另 一 个 方向 上 保持 不 变 。 这 就 消除 了 两 
个 方向 上 的 空间 分 辩 率 限制 ， 因 此 得 以 广泛 运用 于 计算 机 视觉 。 


5.2.2 二 进 制 结构 化 汇编 


图 5. 2 显示 了 用 结构 光 技术 进行 3D 传 感 的 示意 图 ， 图 上 所 示 的 条 纹 可 以 在 4 或 者 v 方 
向 上 变化 ， 但 不 能 在 两 个 方向 都 变化 。 

这 个 系统 包括 三 个 主要 单元 : 图像 采 集 单元 (A)、 投 影 单元 (C) 和 要 进行 测量 的 3D 
对 象 (B) 。 投 影 仪 直 接 在 对 象 的 表面 照 亮 垂直 结构 条 纹 ， 如 果 从 另 一 个 角度 观看 ， 对 象 的 
表面 会 将 这 些 条 纹 从 直线 扭曲 成 曲线 。 然 后 摄像 头 从 不 同 于 投影 角度 的 另 一 个 角度 下 捕捉 捏 
曲 的 结构 图 像 ， 这 样 就 形成 了 一 个 三 角形 。 在 这 样 的 系统 中 ， 通 过 分 析 已 知 结构 的 变形 图 案 
获得 结构 化 汇编 信息 ， 并 以 此 建立 对 应 。 也 就 是 说 ， 系 统 知道 应 该 投影 哪个 图 案 ， 并 且 通 过 
从 对 象 表面 确定 和 测量 图 案 的 突变 情况 ， 对 应 得 以 建立 。 

二 进 制 编码 结构 化 图 案 (只 有 0 和 1) 在 结构 光 系 统 中 广泛 应 用 ， 是 因为 : 

1) 简单 : 很 容易 实现 ， 因 为 编码 和 解码 算法 是 简单 的 。 

2) 稳健 表面 特性 的 变化 稳定 ， 因 为 只 有 2 个 灰 度 水 平 (0 和 255) 被 使 用 和 预期 。 
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图 5.2 运用 结构 光 技 术 的 3D 成 像 系 统 示意 图 。 来 源 : Zhang 2010, 转载 获得 Elsevier 许可 
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在 这 种 方法 中 ， 每 个 图 案 的 每 一 个 像素 都 有 自己 独特 的 0 和 1 的 码 字 ! 7] 。 要 确定 一 个 
像素 的 独特 的 码 字 ， 一 组 二 进 制图 案 要 依次 投射 和 捕获 ， 如 图 5. 3 所 示 。 对 每 个 码 字 的 每 一 
位 的 图 案 进 行 投影 和 捕获 ， 找 回 独 特 的 码 字 ， 青 比较 每 个 图 像 的 每 个 像素 ， 并 在 码 字 的 对 应 
位 显示 结 

一 旦 结构 化 图 案 已 经 解码 ， 并 且 得 知 每 个 像素 的 独特 的 码 字 ， 对 应 关系 就 可 以 建立 。 从 
本 质 上 讲 ， 这 一 步 包括 将 像素 的 码 字 转 化 为 投影 坐标 。 如 果 摄 像 头 坐 标 系 投影 坐标 是 已 知 























的 ， 假 设 系统 经 校准 ， 三 维 坐标 可 以 通过 下 式 三 角 定 位 : 
[zzoe,1]I=[Pe] [ze yx,1]7 (5.4) 
[u oP, | SPP) lay 2" 0 (5.5) 











AP, P ERRARE, PPB DURE; (wu, o) 是 摄像 头 的 p 坐标 ; (W, w) 是 投影 
仪 坐标 。 因 为 汇编 只 在 一 个 方向 ， 即 水 平 , v* 是 未 知 的 ， 这 样 就 有 三 个 方程 式 和 三 个 未 
知 数 。 这 些 方程 式 是 一 个 线性 方程 式 组 ， 解 出 它们 将 得 出 世界 坐标 Cae’, y, 2!) ASE 
5.3 节 将 讨论 进一步 探讨 校准 技术 的 细节 ， 提 供 更 多 线性 结构 光 系 统 的 背景 以 及 结构 光 系 统 
如 何 进 行 校准 来 寻找 矩阵 Po AIL PP 


a) b) c) d) 


图 5.3 汇编 二 进 制图 案 的 示例 。 要 恢复 该 码 字 ， 无 论 像素 是 黑色 还 是 白色 ， 
都 要 对 每 个 画面 进行 简单 的 比较 ， 其 结果 出 现在 相应 位 的 码 字 中 

虽然 二 进 制 码 因 其 简单 性 和 处 理 系统 中 噪声 的 能 力 而 非常 方便 ， 但 它们 并 不 是 没有 缺 
点 。 二 进 制 码 的 两 个 显著 的 缺点 是 : 空间 分 辨 率 ; 大 量 需要 汇编 的 图 案 。 

二 进 制 码 的 空间 分 辩 率 被 投影 仪 分 辨 率 和 摄像 头 分 辩 率 限制 。 图 5. 4a 展示 了 一 个 二 进 
WEAR, 图 5. 4b 展示 了 其 对 应 的 截面 。 在 这 里 ， 黑 色 代 表 二 进 制 0， 而 白色 代表 二 进 制 1。 
在 图 5.4b 中 ,以 M 和 N 中 间 的 一 个 条 纹 来 说 ， 所 有 点 都 有 相同 的 灰 度 值 ， 因 此 它们 不 能 被 
区 分 。 所 以 ， 对 于 二 进 制 方法 来 说 ， 达 到 投影 仪 的 像素 级 的 空间 分 辨 率 是 困难 的 ， 因 为 这 个 
条 纹 的 宽度 一 定 要 比 投影 仪 的 其 中 一 个 像素 要 大 。 此 外 ， 由 于 它 不 能 达到 像素 级 的 配对 ， 这 
项 技术 要 达到 非常 高 的 测量 精度 是 很 难 的 。 

第 二 个 缺点 是 大 量 需要 汇编 的 图 案 ， 因 为 一 个 二 进 制 码 仅 使 用 两 个 灰 度 水 平 ， 即 二 进 制 
的 0 和 1。 这 就 限制 了 可 以 为 n 个 二 进 制 结构 化 图 案 生 成 最 大 2" 个 独特 码 字 。 因 此 ， 要 实现 
密集 的 3D 传 感 ， 许 多 二 进 制 结构 化 图 案 是 必需 的 ， 从 而 造成 了 这 项 技术 在 应 用 于 如 实时 3D 
传 感 这 样 的 高 速 应 用 时 不 那么 具有 吸引 力 。 


5.2.3 多 进 制 汇编 
虽然 具备 简单 、 表 面 特性 稳定 、 耐 噪声 等 优点 ， 二 进 制 结构 化 图 案 也 有 其 缺点 ， 特 别 是 
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一 进 制 Esték 














图 5.4 二进制 和 正弦 结构 化 图 案 的 比较 。a) 典型 的 二 元 结构 化 图 案 ; 
b) 图 a 中 所 示 的 二 进 制 图 案 的 截面 ; e) 典型 的 正弦 条 纹 图 案 ; d) Ale 中 所 示 的 图 案 的 截面 

















当 涉 及 大 量 需 要 汇编 的 图 案 时 。 为 了 在 不 牺牲 空间 分 辨 率 的 前 提 下 解决 这 个 问题 ， 可 以 利用 
更 多 的 灰 度 值 '*1。 在 引入 附加 灰 度 值 减 少 结构 光 汇 编 的 稳定 性 的 同时 ， 它 提高 了 其 传 感 速 
BE; 在 运用 于 使 用 扫描 仪 的 特定 应 用 时 必须 对 这 些 取舍 加 以 权衡 。 

多 进 制 方法 不 是 只 使 用 两 个 灰 度 值 (0 和 255) 来 为 每 一 个 像素 创建 独特 码 字 ， 而 是 利 
用 这 些 值 之 间 的 一 个 子 集 。 最 极端 的 情况 下 会 使 用 所 有 的 灰 度 值 ( 即 全 范围 0 ~255 ) 。 每 个 
像素 的 字 码 可 以 通过 灰 度 比 计算 i 只 1 确定 。 这 一 计算 的 最 基本 的 形式 是 假设 一 个 灰 度 谱 
0~255， 包 括 可 沿 垂直 列 放置 的 线性 “ 攀 形 ”57 。 然 后 两 个 图 案 被 投影 到 场景 中 : 一 个 有 
上 述 模 形 ， 一 个 没有 (恒定 灰 度 ) 。 接 下 来 ， 每 个 像素 的 比例 可 以 通过 这 些 值 导 出 ， 用 以 计 
算出 现在 两 个 被 捕捉 并 已 经 投影 在 场景 中 的 图 案 的 比例 。 在 这 种 方法 的 将 代 方 法 中 ， 许 多 横 
形 被 按 顺 序 投影 到 场景 中 ， 与 此 同时 持续 增加 模 形 的 周期 [3] 。 

灰 度 比方 法 在 传 感 速度 方面 表现 很 好 ， 因 为 它 需 要 汇编 的 图 案 较 少 。 然 而 ， 这 种 方法 以 
及 上 述 方法 对 噪声 更 为 敏感 〈 相 对 于 二 进 制 结构 化 汇编 ) ， 它 们 受 限 于 投影 仪 的 分 辨 率 ， 而 
且 对 于 摄像 头 和 投影 仪 散 焦 非 常 敏感 。 为 了 区 服 这 种 方法 的 局 限 性 ， 可 以 使 用 相 移 技 术 和 各 
种 结构 化 图 案 ， 如 三 角形 '*] 和 梯形 '”]。 这 些 技术 可 以 实现 摄像 头像 素 的 空间 分 状 率 ， 并 
降低 对 于 散 焦 的 敏感 程度 ; 然而， 它们 仍然 无 法 完全 免 受 散 焦 问 题 的 影响 。 


5.2.4 ”连续 正弦 相位 汇编 



































如 同 Zhang' 标 注 的 那样 ,不管 是 二 进 制 、 多 进 制 ， 三 角形 还 是 梯形 图 案 ， 只 要 它们 是 
适当 模糊 的 ， 最终 都 会 成 为 正 强 。 模 糊 效 有 果 通 常 发 生 在 一 个 摄像 头 在 焦点 之 外 捕捉 到 一 个 图 
像 的 时 候 和 一 个 对 象 的 所 有 的 突出 特征 混合 在 一 起 的 时 候 。 因 此 ， 正 弦 图 案 似 乎 是 一 个 上 自然 
的 选择 。 如 图 5.4c 和 图 5.4d 所 示 ， 灰 度 随 图 像 逐 点 变化 。 因 此 ， 达 到 像素 级 的 分 辨 率 是 可 
行 的 ， 因 为 水 平 相 邻 像素 之 间 的 灰 度 值 是 可 辨 的 。 由 于 空间 分 辨 率 高 ， 投 影 仪 和 摄像 头 之 间 
的 对 应 关系 可 以 更 精确 地 确定 ， 这 就 允许 了 更 高 的 精度 。 

EZKER (也 被 称 为 条 纹 图 案 ) 有 可 能 达到 像素 级 的 空间 分 辨 率 ， 因 此 ， 长 期 以 来 被 
从 光学 计量 角度 研究 。 在 这 个 实例 中 使 用 的 条 纹 图 案 是 通过 激光 干涉 产生 的 。 数 字条 纹 投 影 
(DFP) 技术 并 非 使 用 产生 可 能 危及 测量 质量 散 斑 噪声 的 激光 干涉 ， 而 是 采用 数码 视频 投影 
仪 来 投影 计算 机 产生 的 正弦 图 案 。 原 则 上 ，DFP 技术 是 一 种 特殊 的 三 角 结构 光 方 法 ， 在 这 种 
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方法 中 的 结构 化 图 案 灰 度 呈 正弦 变化 。 不 像 基于 灰 度 的 方法 ，DFP 技术 使 用 相位 信息 来 建立 
对 应 关系 ， 通 常 在 表面 纹理 的 变化 上 相当 稳定 。 

相位 可 以 使 用 的 傅 里 叶 变 换 轮廓 术 (FTP)525] 通 过 传 里 叶 分 析 方 法 来 获得 。 因 为 只 有 一 
个 单一 的 条 纹 图 案 是 必需 的 :.”] ，FTP 在 简单 的 动态 3D 形状 测量 方面 运用 广泛 。 然 而 ， 这 
种 方法 对 于 噪声 和 表面 纹理 变化 非常 敏感 。 为 了 提高 其 稳定 性 ，Kemao (2004) [31 提 出 了 窗 
口传 里 叶 变 换 (WFT) 方法 。 虽 然 成 功 ， 但 由 于 FTP 方法 中 空间 传 里 叶 变 换 需 要 的 基本 限 
Hil, WET 仍然 不 能 实现 对 一 般 复 杂 程 度 的 3D 结构 进行 高 质量 的 3D 测量 。 改 良 FTP 的 方法 
是 为 了 通过 使 用 两 个 图 案 来 获得 更 高 质量 的 相位 :1 。 然 而 ， 没 有 突显 的 纹理 和 /或 几何 变 
化 ， 表 面 测量 仍然 受 限 。 

要 测量 通用 表面 ， 必 须 使 用 至 少 三 个 条 纹 图 案 。 如 果 使 用 三 个 或 更 多 的 正弦 结构 化 图 
案 ， 并 且 它 们 的 相位 信息 变换 ， 可 以 在 不 知道 相 邻 信息 的 情况 下 获得 逐个 像素 的 相位 ， 从 而 
使 其 免 受 表面 纹理 变化 影响 。 这 些 方法 通常 被 称 为 移 相 方法 。 

5.2.4.1 多 步骤 移 相 技术 

移 相 方法 因为 下 列 优点 在 光学 测量 领域 得 以 广泛 运用 1341 : 

1) 密集 3D 形状 测量 。 相 移 技术 允许 逐个 像素 的 3D 形状 测量 ， 使 得 实现 摄像 头像 素 级 
的 空间 分 辩 率 成 为 可 能 。 

2) 不 受 环境 光 的 影响 。 移 相 方 法 不 是 利用 灰 度 ， 而 是 分 析 相 位 信息 的 结构 化 图 案 。 环 
境 光 的 影响 被 自动 取消 了 ， 但 如 果 环 境 光 比 投影 灯 强 太 多 ， 该 信号 的 信 噪 比 (SNR) 可 能 会 
被 牺牲 掉 。 

3) 对 表面 反射 率 变 化 不 太 敏感 。 通 常情 况 下 ， 移 相 方 法 运用 反正 切 函 数 逐 点 计算 相 
位 ， 因 为 每 一 个 像素 点 是 恒定 的 ， 表 面 反射 率 信 息 的 影响 得 以 消除 。 

4) 允许 高 速 3D 形状 测量 。 由 于 整个 测量 区 域 可 以 一 次 捕获 和 处 理 ， 这 种 技术 ， 以 及 
其 他 结构 光 技 术 ， 可 以 实现 高 测量 速度 。 

5) 可 以 实现 测量 高 精度 。 不 像 其 他 的 结构 光 技 术 ， 移 相 方法 允许 投影 仪 和 摄像 头 之 间 
没有 任何 插值 的 精确 的 亚 像素 对 应 。 因 此 ， 在 理论 上 ， 如 果 校 准 正确 ， 它 可 以 实现 高 精度 的 
3D 形状 测量 。 

多 年 来 ， 众 多 的 相 移 算法 已 经 得 以 开发 ， 包 括 三 步 法 、 四 步 法 和 多 步 算法 。 对 于 高 速 应 
用 ， 常 用 三 步 相 移 算 法 ， 因 为 它 获得 逐个 像素 的 相位 所 需 的 图 像 最 小 。 具 有 相同 的 相位 偏 移 
的 多 步 相 移 算法 可 以 描述 为 

T(x,y) =l (x,y) + 有 (xy)cos( 中 +27TAN) (5.6) 
RP, n = 1,2, … ，Ni I(x, y) 是 平均 灰 度 ; l, y) AKEHE; pC, y) 是 要 解 出 
的 相位 。 




































































> T(x,y) sin(2nt/N) 
> "L, (x,y) cos(2nm/N) 


这 个 方程 式 只 提供 [- a, +a] WEE, AKAME, RA 





p(x,y) = arctan (5.7) 
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被 称 为 “ 包 占 相位 ”。 模 量 为 25 的 包 庄 相位 可 以 通过 采用 空间 相位 展开 算法 转换 为 连续 相 
位 映射 B(x,，y) [1]。 空 间 相位 展开 算法 通过 比较 相 邻 像素 的 相位 值 定位 2 不 连续 的 相位 
值 ， 通 过 加 上 或 者 减 去 2m 的 整数 值 并 删除 25 跳跃 。 

众多 的 相位 展开 算法 被 开发 出 来 ， 其 中 一 些 在 本 质 上 是 非常 稳健 的 [3 -4%] 。 虽 然 在 一 些 
方面 稳健 ， 但 空间 相位 展开 算法 只 适用 于 点 和 点 之 间 没 有 突然 变化 的 “平滑 ”表面 。 此 外 ， 
因为 展开 的 相位 总 是 指向 映射 中 的 包 右 相位 ， 获 得 的 相位 Da, y) 被 称 为 相对 相位 ， 将 相 
位 值 与 深度 z 的 值 唯一 对 应 起 来 是 很 难 的 。 为 了 唯一 地 确定 深度 z 和 相位 值 之 间 的 关系 ， 绝 
对 相位 是 必要 的 ， 这 将 在 下 一 节 中 解释 [45] 。 

5.2.4.2 恢复 绝对 相位 

前 面 提 到 的 空间 相位 展开 方法 只 为 每 个 像素 恢复 相对 相位 ， 不 能 用 于 测量 步 高 大 于 7 
或 有 不 连续 补丁 的 对 象 。 为 了 恢复 绝对 相位 ， 每 个 连续 的 补丁 至 少 需要 一 个 点 来 得 到 一 个 已 
知 的 相位 值 。 如 果 传 感 速度 是 至 关 重 要 的 ， 这 些 信息 可 以 通过 用 标记 !41 或 投射 一 个 额外 的 
图 案 来 编码 条 纹 图 案 !41] 的 方式 进行 传输 。 要 获得 逐个 像素 的 绝对 相位 ， 通 常 需 要 更 多 图 
像 ， 通 常 采用 时 间 相 位 展开 算法 。 时 间 相 位 展开 算法 并 非 看 邻近 像素 的 相位 值 ， 而 是 使 用 来 
自 相 同 摄像 头像 素 上 的 其 他 相位 值 的 线索 。 

研究 人 员 已 经 开发 出 许多 时 间 相 位 展开 方法 ， 包 括 两 频 !$] 或 多 频 !%] 移 相 法 和 灰 度 编 
码 加 移 相 法 55] 。 用 灰 度 编码 加 移 相 方法 获得 绝对 相位 ， 一 系列 设计 的 二 进 制 编码 图 案 独特 
定义 每 个 2 相位 的 跳 变 位 置 来 创建 一 个 边缘 序列 k(x，y) ， 这 样 相 位 可 以 通过 二 进 制 编码 
图 案 逐 个 像素 地 恢复 。 简 而 言 之 ， 独 特 的 码 字 5(x，y) ， 类 似 于 二 进 制 结 构 光 方法 ， 是 为 了 
展开 相位 分 配给 每 个 2r 相 变 期 的 。 每 个 码 字 都 是 由 一 系列 二 进 制 结构 化 图 案 建立 的 。 一 旦 
k(x, y) 确定 ， 相 位 就 可 以 不 用 看 相 邻 相位 值 而 逐个 像素 地 展开 。 也 就 是 说 ， 绝 对 相位 可 
以 通过 以 下 公式 获取 : 





















































P(x,y) = 中 xy) +k(x,y) x27 (5.8) 
如 上 所 述 ， 从 一 个 单一 频率 方法 得 到 的 相位 在 [ -7m, 7) 的 范围 内 。 当 一 个 条 纹 图 
包含 多 个 条 纹 ， 必 须 展开 相位 来 得 到 连续 相位 映射 。 这 意味 着 ， 如 果 男 一 套 宽 条 纹 图 
(单条 纹 可 以 覆盖 整个 图 像 ) 是 用 于 在 没有 2r 不 连续 的 情况 下 获取 相位 映射 第 二 相位 映 
射 可 以 在 没有 空间 相位 展开 的 情况 下 用 来 逐 点 展开 另 一 个 。 要 获得 更 广泛 的 条 纹 图 案 的 相 
位 ， 有 两 种 方法 : 
1) 直接 使 用 很 宽 的 条 纹 图 案 以 使 得 单条 纹 覆 盖 整 个 测量 范围 。 
2) 使 用 两 个 高 频 条 纹 图 案 来 生成 一 个 等 效 的 低频 条 纹 图 案 。 
前 者 并 不 常用 ， 因 为 受 噪声 或 (和) 硬件 限制 影响 ， 生 成 一 个 高 质量 的 宽 条 纹 图 案 是 
很 难 的 。 因 此 ， 后 者 更 常 被 采用 。 本 小 节 将 简要 说 明 该 技术 的 原理 。 
这 种 多 频 相 移 法 起 源 于 物理 光学 理论 ， 在 这 种 方法 中 ， 理 论 上 绝对 相位 B、 光 的 波长 A 
和 高 h(x, y) 之 间 的 关系 可 以 写 为 
P=|[C-h(x,y)/AÀ] .27 (5.9) 
式 中 ，C 是 一 个 系统 和 常数。 所以， 对 于 A < 和, 来 说 绝对 相位 是 D 和 B,;， 它 们 的 区 别 分 
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AG =P, -By =[C-h(x,y)/AG] -27 (5. 10) 


TAS =A,A/IA, - A, | (5.11) 
是 和 A 入, 之 间 的 等 效 波长 。 如 果 和 AA, e (A,, 241), FTTH AG >A, KE, RTA 
ACAR DM D, 我们 知道 的 绝对 相位 之 间 的 关系 是 B 和 带 有 2r 不 连续 性 的 包 右 相 
hi B =@(mod 27)。 这 里 模 运 算 符 用 于 将 相位 转换 为 [0, 27) 的 区 间 。 对 式 (5.10) 进 
行 模 数 运算 将 导致 ; 

















Ad, =| Di - P, | (mod 277) (5. 12) 

=[¢, — p, | (mod 277) (5.13) 

Ady, =AP (mod 2T) 。 如 果 正 确 选 择 波 长 ， 则 结果 等 效 波长 AER R E NE m BR 

的 整个 范围 ， 即 1C + h(x,y) ASI <1， 模 运算 符 没 有 任何 影响 ， 而 且 不 需要 进行 相位 展开 。 

然而 ， 由 于 噪声 存在 ， 双 频 技术 通常 是 不 够 的 [8] 。 实 际 上 ， 为 了 进行 逐 点 绝对 相位 测量 ， 
至 少 需要 有 三 个 频率 条 纹 图 案 。 多 频 技 术 是 为 了 等 效 的 最 宽 条 纹 可 以 覆盖 整个 图 像 51 。 

假设 使 用 另外 一 套 含 波长 (AM3) 条 纹 图 案 ; ZEA, 和 A3 之 间 的 等 效 波长 会 是 A 吕 =AiA3/ 

IA, -Ailo RAH 

Abia =[ p; -p3 ] (mod 27) = { [C+ h(x,y)/AY] + 2m} (mod 277) (5. 14) 

Abi23 = (Api; - Ap) (mod 277) = | [C+ h(x,y)/Aîh ] + 277] (mod 277) (5.15) 

RP, ATS, =A -A91 MERIR PEE IC  h(x,y)/Ah | <1 来 确保 不 展开 空间 

相位 的 情况 下 得 到 绝对 相位 。 只 要 得 到 最 长 的 相等 波长 绝对 相位 ， 它 就 可 以 反 过 来 展开 其 他 
波长 的 相位 。 最 短波 长 的 相位 通常 用 来 恢复 3D 信息 ， 因 为 测量 精度 大 约 与 波长 成 反比 。 


5.3 结构 光 系 统 校准 


在 对 不 同 的 结构 光 技 术 的 论述 中 ， 我 们 已 经 讨论 过 ， 假 设 系统 被 校准 ， 就 能 够 将 3D 信 
息 三 角 化 测量 。 在 选择 一 个 汇编 方案 后 ,摄像头 上 的 点 可 以 与 一 个 投影 点 (w?, o) 或 一 条 
线 对 应 ， 而 后 将 其 与 投影 仪 和 摄像 头 内 在 和 外 在 的 矩阵 用 于 3D 点 线性 方程 式 解 算 三 角 化 处 
理 。 结 构 光 系统 校准 为 摄像 头 和 投影 仪 确定 了 这 些 内 在 和 外 在 的 矩阵 。 

人 们 已 经 研究 出 许多 种 结构 光 系 统 校 准 的 方法 使 其 达到 高 精度 ， 并 且 结 构 光 系统 校准 涉 
及 投影 仪 和 摄像 头 的 校准 。 摄 像 头 校准 是 由 Zhang (2000)! ”1 建立 的 平面 棋盘 法 ， 因 其 简 
单 性 和 标定 转速 ， 而 被 广泛 使 用 。 在 该 方法 中 ， 摄 像 头 被 视 为 针 孔 摄像 头 模型 。 摄 像 头 校准 
确定 其 内 部 参数 (如 焦距 、 主 点 ) 和 外 部 参数 ; 坐标 (x, y, z) 与 现实 世界 坐标 (x”*, y”, 
z*) ， 以 及 摄像 头 坐 标 系 统 是 互相 协调 的 。 图 5. 5 所 示 的 是 一 个 简单 的 针 孔 系统 ， 其 内 在 的 
参数 可 以 描述 为 
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[a Y uo 
A=|0 B w 
LO 0 1 
AF, (uo, vo) 是 主 点 坐标 ， 或 光 轴 和 图 像 传感器 平面 的 交叉 点 ; a 和 8B 是 图 像 平面 上 u, 
v 轴 上 的 焦点 长 度 ; y 是 表示 u, v 坐标 偏 度 的 参数 。 对 于 现代 的 摄像 头 传感器 来 说 ， 这 个 值 
通常 都 是 零 ， 因 为 u 和 vw 方向 是 彼此 垂直 的 。 


(5. 16) 


























MA 








图 5.5 针 孔 摄像 头 模型 。 该 摄像 头 模型 描述 了 3D 空间 中 的 任意 点 在 其 坐标 系 下 转化 为 了 摄像 头 镜头 坐标 系 ， 
最 后 镜头 坐标 系 中 的 3D 坐标 会 被 投影 到 2D 成 像 空间 。 来 源 : Zhang & Huang PS 2006b。 转载 获 SPIE 许可 











数学 上 将 针 孔 摄像 头 模型 的 外 在 参数 描述 为 
nm Fig Mmh b 
[R,t]=|ro Po 13 by ey 
M31 T32 T33 t, 
式 中 ,RR 是 一 个 3 x3 的 旋转 矩阵 ; 而 1 是 一 个 3 x1 的 平移 向 量 。 
如 图 5.5 所 示 ， 对 于 任意 一 个 点 P， 在 世界 坐标 系 (o"; a", y", z) 的 坐标 为 《x*， 
y's 2"), FERRARA (08s a, y, 2°) 的 华 标 为 (x*，y*，z*)， 其 在 w 图 像 平面 上 的 
投影 在 数学 上 可 以 表示 为 








sl =A[R,t |X" (5. 18) 

式 中 , 在 图 像 平面 ET7= [u,v, 1] 是 图 像 点 的 齐 次 坐标 ，X” =[x*, y", 2", 1)" 是 该 点 在 世 

界 坐 标 系 中 的 齐 次 世界 坐标 ; 而 * 是 一 个 比例 因子 。 上 述 方程 式 描述 了 一 个 线性 摄像 头 模 
型 ， 非 线性 效应 可 以 通过 采用 非 线性 模型 补偿 。 为 简 音 起见， 本章 只 阐述 了 线性 模型 。 

结构 光 系 统 与 立体 声 系统 不 同 ， 因 为 该 系统 中 用 投影 仪 取 代 了 其 中 的 一 个 摄像 头 。 这 种 

替换 使 得 结构 光 系 统 校准 非常 困难 ， 因 为 投影 仪 不 能 像 摄 像 头 那样 捕捉 图 像 。 人 们 研究 出 了 

各 种 技术 以 达到 完全 校准 结构 光 系 统 !73] ， 但 这 些 方法 大 多 数 是 非常 耗 时 的 ， 并 且 难 以 达 
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到 高 精度 。2004 年 Legarda - S'aenz 等 学 者 (2004) 94) 提出 一 种 利用 绝对 相位 的 方法 ， 通 过 
投影 一 系列 的 条 纹 图 案 来 找到 投影 仪 校准 板 的 标记 中 心 。 通 过 优化 ， 该 方法 在 精度 方面 表现 
良好 。 然 而 ， 它 需要 使 用 校准 的 摄像 头 来 校准 投影 仪 ， 因 此 ， 该 摄像 头 的 校准 误差 将 被 耦合 
到 投影 仪 校准 ， 这 是 不 可 取 的 。 

从 光学 角度 来 看 ， 投 影 仪 和 摄像 头 是 相同 的 。 鉴 于 此 ，Zhang 和 Huang (2006b) ‘47! ë 
出 了 一 种 新 的 结构 光 系 统 校准 方法 ， 同 时 独立 地 校准 投影 仪 和 摄像 头 。 在 这 种 方法 中 ， 水 平 
和 垂直 条 纹 图 案 被 用 来 建立 一 个 摄像 头像 素 和 投影 仪 像素 之 间 的 一 对 一 的 映射 。 这 使 得 摄像 
头 的 灰 度 图 实际 上 为 投影 仪 生成 图 像 ， 因 此 ， 该 方法 允许 投影 仪 像 普 通 摄像 头 一 样 “ 捕 捉 ” 
图 像 。 

一 且 投 影 仪 “捕捉 ”到 图 像 ， 结 构 光 系统 校准 会 成 为 一 个 行 之 有 效 的 立体 声 系 统 校准 。 
由 于 投影 仪 和 摄像 头 的 校准 是 同时 独立 地 进行 ， 校 准 的 精度 大 大 地 提高 了 ， 同 时 校准 速度 也 
大 大 增加 了 。 图 5.6 所 示 的 是 摄像 头 捕捉 到 的 一 个 典型 的 棋盘 图 像 对 和 映射 方法 转换 的 投影 
图 像 。 它 清楚 地 表明 ， 投 影 仪 的 棋盘 图 像 捕 捉 得 很 完整 。 继 Zhang 和 Huangt“ 1 的 研究 后 ， 
还 有 人 研究 得 出 了 一 些 校 准 方法 [五 -有 如] 。 这 些 技术 的 主要 目标 基本 上 是 相同 的 : 在 投影 仪 
和 摄像 头 之 间 建 立 一 个 一 一 映射 。 一 旦 系统 被 校准 ， 可 以 使 用 绝对 相位 作为 一 个 约束 来 计算 
(x,y,z) 坐标 ， 我 们 会 在 下 面 对 此 进行 讨论 。 





























图 5.6 Zhang 和 Huang [4 运用 该 技术 得 到 的 棋盘 图 像 对 。 

















a) 摄像 头 拍 摄 到 的 棋盘 图 像 ， b) 投影 仪 映射 的 棋盘 图 像 ， 也 被 认为 是 通过 投影 仪 捕捉 
的 棋盘 图 像 。 来 源 : Zhang Sand Huang PS 2006b。 转 载 获得 SPIE 许可 




















绝对 相位 图 提供 了 一 个 摄像 头像 素 和 投影 线 之 间 的 一 对 一 映射 。 如 果 摄 像 头 和 投影 仪 在 
同一 个 世界 坐标 系 中 校准 ， 则 这 个 约束 就 足以 获得 唯一 的 (x, y, z) 坐标 。 因 为 对 于 一 个 结 
HERA, IN (5.18) 可 以 被 重新 编写 来 代表 摄像 头 针 孔 模 型 。 

seT =A [Re] X" (5.19) 
SUP, s 是 摄像 头 的 缩放 因子 ; L 是 齐 次 摄像 头 图 像 坐标 ; A 是 摄像 头 的 内 在 参数 ; [R , 
t*] 是 摄像 头 的 外 在 参数 矩阵 。 这 就 提供 了 一 个 从 坐标 系 到 摄像 头 图 像 平 面 的 映射 。 同 样 ， 
从 世界 坐标 系 到 投影 仪 图 像 平面 的 投影 可 以 表示 为 

sPIP =AP[ RP P] X" (5.20) 
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式 中 ，s? 是 投影 仪 的 缩放 因子 ; PP 是 齐 次 投影 图 像 坐标 ; A 是 投影 仪 的 内 在 参数 ; [R?, t] 
是 投影 仪 的 外 在 参数 矩阵 。 

从 式 (5.19) ~ 式 (5.21) 有 6 个 方程 式 , 但 有 7 个 未 知 数 Cx", yr, z), P P 
wu?、w?。 为 了 完全 地 解 出 世界 坐标 (x*, y*, 2), ， 需 要 有 由 绝对 相位 信息 提供 的 另外 一 个 方 
ER (RAR): 摄像 凑 上 的 每 个 点 与 投影 面 上 相同 的 绝对 相位 的 一 条 线 相对 应 '“”] 。 即 假 
设 条 纹 是 沿 着 " 方向， 我们 可 以 在 捕获 的 条 纹 图 像 和 投影 的 条 纹 图 像 之 间 建 立 关 系 : 

Py (ue ,v°) =, (u") (5.21) 

有 了 该 约束 方程 式 ，(x*, y”, z*) 坐标 可 逐个 像素 地 唯一 解 出 3”] 。 


5.4 数字 条 纹 投射 (DFP) 技术 下 的 3D 传 感 示例 


本 节 展 示 了 几 则 使 用 DEP 技术 实现 高 分 辨 率 3D 传 感 的 实例 。 图 5.7 阐述 的 是 使 用 三 步 
相 移 测量 法 实现 3D 传 感 的 实例 ， 图 5. 7a ~c 所 示 为 伴随 20/3 相 移 的 三 相 移 条 纹 图 像 。 图 
5.7d 对 这 些 条 纹 图 像 ， 应 用 式 (5.7) 后 的 相位 图 ， 该 图 清楚 地 显示 了 相位 的 不 连续 性 。 应 
用 参考 文献 [60] 中 讨论 的 相位 去 包 庄 算法 ， 包 右 相 位 图 可 以 去 包 庄 化 以 得 到 一 个 连续 的 
相位 图 ， 如 图 $. 7e 所 示 。 之 后 ， 去 包 庄 相位 图 可 通过 应 用 5. 3 节 中 所 介绍 的 方法 换 成 3D JÉ 
状 。3D 形状 可 使 用 3D 图形 处 理 库 (OpenGL) 得 以 进一步 绘制 ， 如 图 5.7f、g 所 示 。 同 时 ， 
通过 对 这 三 幅 条 纹 图 像 取 均值 的 方法 ， 得 到 纹理 图 像 。 而 纹理 图 像 可 映射 于 3D 形状 上 ， 以 
获得 更 逼真 的 视觉 效果 ， 如 图 5. 7h 所 示 。 




















h) 








图 5.7 采用 三 步 相 移 法 实现 3D 传 感 的 实例 。a) 1,( -27/3); b) (0); c) (27/3); d) BMA; 
e) 去 包 庄 相位 图 ; A 阴影 模型 绘制 的 3D 形状 ; g) 镜头 拉 近 后 的 图 像 ，h) 纹理 映射 绘制 3D 形状 。 
VE: Zhang S and Huang PS 2006b。 转 载 获 取 SPIE 许可 









































五 
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图 5.8 和 图 5.9 阐述 了 多 频 相 移 法 [6 的 3D 传 感 实 例 ， 我 们 选择 了 A, =60 RA, A, = 
90 像素 和 A; = 102 像素 的 三 幅 频率 条 纹 图 像 ， 结 果 显 示 得 到 的 等 效 条 纹 波长 为 765 像素 ， 
换言之 ， 如 果 我 们 使 用 投影 仪 产 生 765 像素 宽 条 纹 网 像 ， 就 不 需要 为 了 恢复 绝对 相位 而 对 空 
fal AB iz Fe LS, 于 是 便 形 成 了 3D 形状 


nD g) h) i) 


图 5.8 a) 捕捉 到 场景 的 照片 ，b) 一 个 条 纹 图 案 (A, = 60 E); c) 一 个 条 纹 图 案 (A, =90 像素 ) ; 
d) 一 个 条 纹 图 案 (A; = 102 像素 ) ; e) BRIZ pi; f) BRINE pa; g) MHA; 
h) 相应 等 效 相位 差 Ab ; i) 相应 等 效 相位 差 Ad, ; j) 产生 的 相位 Apis o 
XW: Wang Y and Zhang S 2011。 转载 获得 美国 光学 协会 许可 
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图 5.9 使 用 绝对 相位 图 得 到 的 3D 结果 。 来 源 : Wang Y and Zhang S 2011 ， 转 载 经 美国 光学 学 会 许可 
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如 图 5. 8a 所 示 ， 该 实验 中 存在 两 个 独立 的 物体 ， 透 过 摄像 头 观 看 球状 物 的 直径 大 约 为 
17mm， 塑 像 大 约 高 60omm， 宽 45mm。 图 5. 8b ~ d 显示 了 不 同 频 率 下 的 变形 条 纹 图 案 。 图 
5. 8e ~ g 分 别 展示 了 不 同 频率 的 变形 条 纹 图 案 中 获取 的 包 庄 相位 图 。 图 5. 8h 显示 的 是 和 | 和 
A, 对 应 的 等 效 包 庄 相 位 图 ， 而 图 5. 8i 显示 的 是 和 FA, 对 应 的 等 效 包 正 相位 图 。 

最 终 ， 最 长 等 效 波长 的 相位 图 可 通过 两 幅 等 效 相位 图 获得 ， 该 结果 如 图 5. 8j 所 示 。 从 
图 中 可 见 ， 最 长 等 效 波长 相位 图 ， 无 27 不 连续 性 ， 因 而 ， 不 需要 空间 相位 的 去 包 庄 化 。 

不 同 于 最 长 等 效 波长 的 相位 图 ， 最 短波 长 (A, = 60 像素 ) VERE, IRA 
于 重建 3D 信息 。 图 5.9 显示 了 重建 后 的 3D 结果 。 图 中 可 见 ，3D 外 形 得 以 适当 恢复 ， 而 这 
种 效果 依靠 单 频 移 相 方 法 是 无 法 实现 的 。 


5.5 SLAY 3D 传 感 技术 


我 们 可 以 采用 随机 汇编 的 单一 结构 化 图 案 或 正弦 结构 以 满足 实时 的 速度 要 求 ， 然 而 ， 这 
些 技术 通常 在 表面 性 能 需求 或 可 达到 的 空间 分 辨 率 上 具有 很 大 的 局 限 性 ， 权 衡 之 下 ， 人 们 往 
往 会 采用 快速 切换 的 多 结构 化 图 案 ， 以 便 在 短 时 间 内 捕获 适用 于 恢复 3D 形状 的 结构 化 图 
案 。Rusinkiewicz 等 人 (2001) [2 研发 了 一 种 利用 条 纹 边界 编码 实现 实时 3D 模型 采集 的 系 
统 [9] 。 条 纹 边 界 编码 是 由 投射 二 进 制 级 结构 化 图 案 的 序列 决定 的 ， 如 上 所 述 ， 该 技术 的 空 
间 分 辩 率 受 投影 仪 分 辩 率 大 小 的 限制 。 

为 避免 由 彩色 、 单 色 或 黑白 色 引 起 的 问题 ， 通 常 通过 使 用 不 同 的 结构 化 图 案 寻 找 解决 办 
法 。 例 如 ，Zhang 和 Huang (2006a) [4 研发 出 一 种 以 黑白 正弦 变化 的 结构 化 图 案 为 基础 的 
3D 传 感 系统 ，Zhang 等 人 (2006a) 通过 使 用 三 步 相 移 算法 !9] 开发 了 一 个 实现 实时 同步 数 
据 采 集 、 重 建 和 显示 的 运行 系统 ， 该 方法 利用 了 单片机 数字 光 处 理 (DLP) 的 独特 投影 机 
制 。 三 种 结构 化 图 案 编码 进入 投影 仪 的 RGB 通道 ， 并 顺 其 自然 地 由 数字 光 处 理 (DLP) 4% 
影 仪 在 三 种 图 案 中 自动 切换 。 

通过 这 些 手段 ， 我 们 实现 了 在 60Hz 的 波动 频率 下 ， 以 每 帧 超过 300k 点 的 速度 进行 了 
3D 表面 测量 !”1 ， 我 们 将 在 本 节 进 一 步 阐述 该 项 技术 的 细节 。 


5. 5.1 数字 光 处 理 (DLP) 技术 的 原理 


数字 光 处 理 (DLP) 的 概念 最 初 产生 于 20 世纪 80 年 代 的 美国 德州 仪器 公司 。1996 年 ， 
德州 仪器 公司 开始 利用 其 数字 光 处 理 技术 牟利。 每 一 个 DLP 投影 系统 的 核心 部 件 都 是 一 个 
光学 半导体 ， 称 作 数字 微 镜 装置 (DMD), DMD 实则 是 一 个 非常 精准 的 光 开 关 。DMD 芯片 
包含 一 个 贸 链 式 相连 的 微 镜 阵列 ， 每 一 个 微 镜 均 与 投影 图 像 上 光 的 一 个 像素 对 应 。 
图 5.10 显示 了 微 镜 的 工作 原理 。 光 学 组 件 上 的 数据 控制 的 静电 力 使 得 反射 面 在 + 0 
(FF) ~ -和 (X) 之 间 移 动 ， 从 而 调节 投射 于 反射 面 上 的 光线 ,反射 面 开关 的 速度 决定 了 
投影 图 像 像 素 的 亮度。 图 像 是 光 从 “ 开 ” 反 射 面 经 由 投影 透镜 反射 到 屏幕 上 而 形成 的 。 灰 
度 值 是 通过 控制 在 帧 周期 内 ， 反 射 面 开关 时 间 的 比例 来 创建 的 一 一 黑 即 0% 开 时 间 ， 而 白 即 





























































































































第 5 章 实时 3D 传 感 与 结构 光 技术 ”163 


100% 开 时 间 。 

数字 光 处 理 (DLP) 投影 仪 采用 数 
字 微 镜 器 件 (DMD) 生成 彩色 图 像 。 所 
有 DLP 投影 仪 都 包括 一 个 光源 、 一 个 彩 
色 滤 光 系 统 、 至 少 一 个 DMD 、 数 字 光 处 
理 电 子 器 件 和 一 个 光学 投影 镜头 。 对 于 a 
单 片 数字 光 处 理 (DLP ) 投影 仪 ， 彩 色 ‘, 
图 像 是 由 系统 中 放置 的 色 轮 制作 的 。 包 vw 
含 红 、 绿 和 蓝 色 滤 光 器 的 色 轮 高 速 旋转 "Ae 
因此 ， 红 、 绿 和 蓝 色 通 道 图 像 会 被 Ms 
投影 到 屏幕 上 ， 然 而 ， 由 于 刷新 率 很 高 ， 

人 了 眼 只 能 捕捉 到 一 个 彩色 图 像 而 非 相继 > 
出 现 的 三 个 图 像 。 jo SS Ae eee 

数字 光 处 理 (DLP) 投影 仪 由 于 时 域 
PASS TOE IRE EL) ， 我 们 用 普 乐 土 US - 
632h 单 片 数字 光 处 理 投影 仪 以 投影 速度 
为 120Hz 的 单 色 模 式 进行 简单 测验 。 光 
敏 二 极 管 (Thorlabs FDS100) 感知 输出 的 光 ， 光 电流 转化 为 电压 信号 ， 全 过 程 由 示波器 监 
测 。 所 使 用 的 光敏 二 极 管 响应 时 间 为 10ms， 有 效 面 积 为 3. 6mm x3. 6mm， 带 宽 35MHz。 示 
波 器 Tektronix TDS2024B 用 于 监测 信号 ， 所 用 带宽 为 200MHz。 

图 5. 11 展现 的 是 投影 机 被 馈 以 不 同 灰 度 值 的 均匀 图 像 后 的 典型 结果 。 如 果 馈 以 纯 绿 色 
RGB = (0, 255, 0) ， 则 信和 号 的 占 空 比 会 接近 100% “F”. MKEWE TFE] 128， 大 约 一 半 
的 通道 被 填充 。 如 果 输 入 的 灰 度 值 减 小 到 64， 则 该 通道 只 有 一 小 部 分 被 填充 。 如 果 输 入 的 
灰 度 值 是 0， 那 占 空 比 将 接近 于 0% “ 开 ”。 这 些 实验 表明 ， 如 果 馈 以 的 灰 度 值 介 于 0 ~255 
之 间 ， 输 出 信号 变 得 不 规则 。 因 此 ， 馈 以 的 灰 度 值 从 0 到 255， 正 弦 条 纹 也 会 相应 变化 ， 整 
个 投影 周期 必须 得 以 捕获 ， 以 便 获 取 从 投影 仪 投 影 得 来 的 图 像 ， 这 就 是 我 们 使 用 实时 3D 传 
RERU 真正 意义 之 所 在 。 
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图 5.10 数字 微 镜 装 置 的 光学 开关 原理 
(经 允许 修改 自 参 考 文献 【72 ] ) 
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图 5.11 投影 仪 中 绿色 图 像 被 馈 以 不 同 灰 度 值 后 所 获得 的 投影 时 间 信 号 示例 。a) 绿 =255; 
b) 绿 =128; c) 绿 =64; d) 绿 =0。 改编 自 Zhang. S. ，et al. 2013 
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5.5.2 实时 3D 数据 采集 


如 5. 2. 4 节 所 述 ， 如 果 使 用 三 步 相 移 算法 ， 三 幅 结构 化 图 像 可 用 于 重建 一 个 3D 形状 。 
这 与 数字 光 处 理 (DLP) 技术 完全 吻合 。 数 字 光 处 理 (DLP) 技术 中 三 种 图 案 被 编 人 投影 仪 
的 三 基色 通道 中 。 因 为 彩色 条 纹 图 案 在 3D 传 感 中 不 可 或 缺 ， 我 们 基于 单 片 数字 光 处 理 
(DLP) 投影 仪 和 白光 技术 研发 了 一 种 实时 3D FER ABE). R 5.12 展示 了 该 系统 的 实际 规 
划 ， 计 算 机 生成 的 彩色 编码 条 纹 图 像 发 送 至 单 片 数字 光 处 理 投影 仪 ， 从 而 顺序 且 反 复 地 将 灰 
阶 的 三 色 通 道 投射 到 物体 上 ， 摄 像 头 和 投影 仪 完 全 同步 ， 这 样 ， 摄 像 头 就 可 以 单独 快速 地 捕 
捉 每 一 个 单独 通道 。 对 三 幅 条 纹 图 像 采 用 三 步 相 移 算法 ，3D 几何 图 形 得 以 复原 。 取 三 幅 条 
纹 图 像 的 平均 值 ， 即 产生 纹理 图 像 ， 而 纹理 图 像 可 进一步 映射 到 复原 的 3D 形状 上 ， 以 加 强 
其 视觉 效果 。 




















数字 光 处 理 。 F 
器 投影 仪 ”边缘 




















图 5.12 实时 3D 形状 测量 系统 布局 。 来 源 : Zhang S 2010。 转 载 获 Elsevier 许可 











投影 仪 顺序 为 每 一 RGB 通道 投射 生成 单 色 条 纹 图 像 ， 颜 色 的 产生 是 置 于 投影 镜头 前 的 
色 轮 作用 的 结果 。 投 影 图 像 的 每 一 个 “ 帧 ”实际 上 都 包含 三 个 独立 图 像 。 通 过 移 除 色 轮 和 
在 每 一 单独 通道 中 放置 单独 的 条 纹 图 像 ， 都 可 使 投影 仪 以 120 Wis 的 速度 生成 三 幅 条 纹 图 
像 (每 个 颜色 通道 的 刷新 率 为 360 帧 /s)， 因 此 ， 如 果 三 幅 条 纹 图 像 用 于 复原 一 个 3D 形状 ， 
那么 3D 测量 的 速度 就 要 在 120Hz 以 上 ， 然 而 ， 由 于 摄像 头 的 速度 有 限 ， 所 以 一 般 摄像 头 都 
会 使 用 两 个 投影 周期 来 捕捉 这 三 幅 条 纹 图 像 ， 这 样 ， 测 量 速度 就 可 以 降 至 60Hz。 

图 5.13 是 实时 3D 形状 测量 系统 的 时 序 图 。 由 于 我 们 使 用 的 摄像 头 的 速度 限制 (全 分 
辨 率 时 ， 最 高 速度 为 200 帧 /s) ， 摄 像 头 往往 需要 两 个 投影 周期 来 捕获 用 于 复原 一 个 3D 形状 
的 三 幅 结构 化 图 像 ， 这 样 ， 我 们 就 实现 了 以 60Hz 的 速度 来 测量 3D 形状 ， 这 种 方式 的 效果 
比 实时 (通常 为 24Hz 或 更 高 ) 更 快 。 
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图 $.13 测量 系统 的 时 序 图 。 来 源 : Zhang S and Yau ST 2007b。 转 载 获 SPIE 许可 





5.5.3 实时 3D 数据 处 理 与 可 视 化 


根据 相位 计算 3D 坐标 是 计算 密集 型 的 ， 单 台 计 算 机 处 理 器 想 要 实现 实时 3D 坐标 计算 
非常 具有 挑战 性 。 然 而 ， 坐 标 计 算是 点 对 点 的 和 矩阵 计算 ,图 形 处 理 单元 (GPU) 则 可 以 有 
效 处 理 该 计算 过 程 。GPU 是 用 于 个 人 电脑 或 游戏 控制 台 的 专用 图 形 演 染 器 。 现 代 图 形 处 理 
单元 (GPU) 在 处 理 和 显示 电脑 图 形 图 像 方向 非常 有 效 ， 其 高 度 并 行 结构 较 典 型 的 CPU 
(PRAKA) 更 适应 并 行 算法 。 由 于 传输 模型 中 没有 分 级 存储 器 件 或 数据 依赖 关系 ， 该 传 
递 途径 将 乔 吐 量 最 大 化 而 无 任何 停滞 ， 因 此 ,不管 图 形 处 理 单元 何 时 被 连贯 地 馈 以 输入 数 
据 ， 它 的 性 能 都 很 高 ， 优 良 的 可 扩展 结构 就 此 形成 [6] 。 现 代 图 像 处理 单 元 的 这 种 流 媒体 处 
理 模型 在 某 些 通用 应 用 程序 方面 超越 了 中 央 处 理 器 (CPU) ， 且 这 种 优势 性 差异 在 未 来 可 能 
PERI, 

KI 5. 14 所 示 为 GPU 传递 途径 ，CPU 发 送 顶 点 数据 包括 顶点 位 置 坐标 和 顶点 法 坐标 至 
GPU, GPU 生成 各 顶点 的 光照 ， 创 建 多 边 形 、 光 栅 处 理 像素 ， 然 后 向 显示 屏 输出 光栅 处 理 后 
的 图 像 。 现 代 GPU 允许 用 户 执 行 传递 途径 中 的 顶点 和 像素 部 分 指定 代码 ， 这 些 部 分 分 别 被 
称 作 顶点 着 色 器 和 像素 着 色 器 ， 可 编程 顶点 处 理 器 上 的 顶点 着 色 器 适用 于 每 一 个 顶点 。 

图 形 处 理 器 
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光栅 化 和 插值 





顶点 转换 











顶点 | 
数据 ! | 
图 5.14 GPU 传递 途径 。 顶 点 数据 包括 顶点 坐标 和 顶点 法 坐标 ， 被 送 往 CPU, GPU 生成 各 顶点 的 光照 ， 




















创建 多 边 形 、 光 栅 处 理 像素 ， 然 后 向 显示 屏 输出 光栅 处 理 后 的 图 像 。 
WÄ: Zhang S, Royer D, and Yau ST, 2006。 和 转载 获 美 国光 学 学 会 许可 
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顶点 着 色 器 承载 着 顶点 坐标 、 颜 色 ， 以 及 从 CPU 获取 的 普通 信息 ， 顶 点 数据 流入 CPU, 
基于 数据 的 输入 顺序 在 多 边 形 的 顶点 被 处 理 和 组 装 。GPU 自动 处 理 流 数据 转移 程序 ， 以 便 
进行 下 一 步 的 并 行 计 算 。 虽然 CPU 的 时 钟 速 率 可 能 明显 慢 于 CPU, {EL GPU 的 多 顶点 处 理 器 
可 并 行 运 行 ， 因 此 ，GCPU 的 吞吐 量 可 超过 CPU, BA GPU 带 来 了 复杂 性 的 同时 ， 顶 点 处 理 
器 的 数量 也 会 增加 ， 这 样 GPU 的 性 能 也 会 有 更 大 改进 。 

通过 利用 GPU 的 处 理 能 力 ，3D 坐标 计算 在 使 用 配 有 NVIDIA 显卡 的 普通 个 人 电脑 的 情 
况 下 即 可 实时 运行 31。 此 外 ， 
3D 形状 数据 早已 存 人 显卡 ， 因 
而 可 以 没有 任何 滞后 地 实时 递 
交 。 因 此 ， 通 过 这 些 方式 ， 实 
时 3D 几何 可 视 化 也 可 同步 实时 
完成 ， 同 时 ， 因 为 具有 相位 数 
据 ， 而 无 3D 坐标 和 法 坐标 ， 作 
为 可 视 化 数据 传递 到 显卡 ， 该 
技术 显著 地 降低 了 数据 传输 的 
负荷 (几乎 降低 为 1M6)。 总 
之 ,利用 GPU 的 处 理 能 力 进 行 
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3D 坐标 校准 ， 实 时 3D RRE 。 图 5.15 30 帧 心 下 的 同步 3D 数据 采集 、 重 建 及 显示 。 
建 和 可 视 化 既 实 时 也 快速 。 来 源 : Zhang S 2010。 转 载 获 Elsevier 许可 





5.5.4 实时 3D 传 感 实例 


图 5.15 显示 了 一 个 活生生 的 人 脸 测 量 的 实验 结果 ， 右 图 展示 了 实际 对 象 ， 而 左 图 展现 
了 所 获得 的 3D 几何 图 形 ， 并 同时 呈现 在 了 电脑 屏幕 上 。 同 步 3D 数据 采集 、 重 建 和 显示 速 
度 达 到 了 30 帧 /s， 且 每 帧 可 获得 超过 300000 点 数据 。 
































5.6 人 机 交互 应 用 的 实时 3D ER 


实时 3D 传 感 融合 了 许多 高 新 技术 以 使 其 具有 在 现实 世界 中 快速 精准 地 捕捉 物体 的 能 
力 。 这 允许 软件 进行 准确 的 测量 ,识别 预 设 的 图 案 并 作 运 行 ， 以 及 通过 感知 的 数据 控制 系 
统 ， 等 等 。 从 该 技术 所 在 的 人 机 交互 领域 中 获得 启示 的 方式 是 提出 这 样 的 问题 : 像 这 样 的 系 
统 究竟 在 做 什么 呢 ? 

观察 诸如 结构 光 系 统 的 3D 系统 。 通 过 在 实时 3D 中 观察 ,许多 绒 新 的 与 电脑 交互 的 动 
态 响 应 关系 就 能 够 被 发 现 。 随 着 3D 计算 机 视觉 领域 的 设备 和 软件 的 发 展 ， 用 户 再 也 无 需 被 
固定 在 桌子 后 ， 用 鼠标 、 键 盘 或 其 他 传统 输入 装置 操控 着 一 个 二 维 平面 〈 他 们 的 电脑 工作 
空间 ) 。 新 的 机 天 输入 方法 使 更 具 创意 、 更 为 自然 的 交互 成 为 可 能 ， 而 这 些 在 数 年 前 还 是 不 
可 行 的 。 本 节 列 出 了 这 些 新 交互 方式 的 实例 并 聚焦 于 该 类 交互 的 细节 和 局 示 。 
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5.6.1 实时 3D 面部 表情 捕捉 及 其 人 机 交互 的 意义 


3D 传 感 提供 的 一 个 新 交互 工具 就 是 能 够 捕捉 并 回应 面部 表情 与 其 他 面部 动作 。 比 如 ， 
设想 在 运算 系统 中 各 个 面部 表情 都 有 与 之 对 应 的 关联 行为 。 目 前 ， 虽 然 该 技术 以 前 就 一 直 在 
研究 [8 ， 但 爱 荷 华 州 立 大 学 正在 研发 的 结构 光 技 术 ， 正 如 前 面 所 述 ， 可 以 提供 更 多 视觉 和 
空间 的 信息 。 这 反 过 来 为 准确 的 操控 系统 提供 了 可 能 。 

传统 的 电脑 视觉 中 ， 要 让 电脑 识别 面部 特征 和 表情 ， 系 统 会 处 理 一 个 2D 视频 流 。 然 后 
基于 每 个 视频 帧 可 识别 的 特征 ， 运 行 的 算法 可 以 基于 预 设 和 /或 习 得 的 图 案 确定 用 户 使 用 了 
哪 一 个 表情 [sl 。 依 据 同样 的 原则 ， 设 想 一 下 结构 光 捕 捉 系 统 可 能 探测 到 的 互动 和 细微 的 脸 
部 特征 ， 如 前 面 所 述 。 这 种 系统 提供 了 另 一 种 维度 的 数据 一 一 深度 信息 ， 它 很 难 用 传统 的 
2D 捕捉 。 结 构 光 系统 的 另 一 个 优势 是 能 够 获得 高 质量 和 细节 密集 的 空间 坐标 。 

实时 捕捉 系统 再 也 不 需要 等 到 面部 表情 变 得 异常 清晰 时 才能 对 其 进行 解码 了 。 有 了 今天 
的 结构 光 技术 ， 无论 是 一 个 断 续 的 假 笑 还 是 一 次 眼角 的 抽 搞 都 能 够 被 清晰 的 捕 提 ， 如 图 
5. 16 所 示 。 现 在 就 可 以 思考 一 下 该 技术 对 残障 人 士 的 启示 一 一 他 们 在 使 用 传统 的 鼠标 、 键 
盘 或 麦克 风 作 为 输入 设备 时 可 能 比较 困难 [8 1 。 结 构 光 3D 捕捉 系统 为 与 电脑 交互 提供 了 另 
一 种 可 能 的 方式 一 一 通过 捕 提 和 处 理 3D 物体 与 景象 。 














































































































a) b) 

















图 5.16 由 3D 结构 光 系统 捕捉 的 精细 的 面部 刻画 和 特征 的 示例 。a) 怪 笑 的 细节 可 以 被 捕捉 ; 
b) 虽然 是 隐蔽 的 特征 ， 但 皱纹 可 以 被 轻易 地 探测 到 在 额头 上 


5.6.2 实时 3D 身体 部 分 姿势 捕捉 及 其 人 机 交互 的 意义 


该 项 技术 不 仅 可 以 应 用 于 捕 提 和 处 理 非常 细致 的 面部 特征 和 动作 ， 它 还 能 应 用 于 身体 的 
其 他 各 部 位 。 以 用 手指 指向 捕捉 系统 为 例 。 用 传统 的 2D 捕捉 方法 ， 一 个 直接 竖 起 手指 的 动 
作 往 往 因 为 缺乏 一 个 清晰 可 辨 的 轮廓 而 很 难 被 识别 。 但 是 如 果 有 细节 丰富 的 3D 技术 ,指示 
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的 手指 就 忽然 可 见 了 ， 因 为 它 有 了 深度 和 在 现实 世界 内 的 情景 。 为 了 应 用 于 更 多 的 姿势 和 交 
H, 这 些 概 念 可 以 扩展 到 整个 手 、 手 臂 和 身体 。 图 5. 17 展示 了 一 个 手指 从 坚 起 变化 成 握拳 























的 例子 。 结 构 光 捕 提 的 细节 程度 是 很 高 的 ， 因 此 可 以 破译 小 幅度 的 运动 和 不 明显 的 特征 。 
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b) 





图 5.17 3D 结构 光 系 统 捕捉 的 手势 位 置 和 变化 的 示例 ; 隐蔽 的 细节 捕捉 可 以 应 用 到 身体 的 任何 部 位 。 
































a) 坚 起 的 手指 ; b) 把 坚 起 的 手指 向 内 收回 























不 久 以 前 ， 用 动作 控制 电脑 还 只 是 一 个 在 科幻 片 中 让 人 兴奋 的 概念 ， 而 且 往往 需要 侵入 式 
的 接触 型 传感器 才能 实现 ; 恰 是 诸如 实时 3D 传 感 这 样 的 新 技术 的 进步 才 使 概念 变 成 了 现实 。 
如 今 ， 身 体 姿 势 识别 已 经 运用 到 一 些 消 费 电子 产品 中 ， 但 我 们 也 要 考虑 以 下 它们 的 某 些 缺点 。 


























缺乏 高 质量 的 被 感知 数据 和 足够 的 可 信赖 空间 信息 是 如 今 2D 和 3D 捕捉 系统 的 主要 局 
限 。 虽 然 如 此 ， 控 制 这 些 系统 的 姿势 仍然 可 以 包括 一 只 或 两 只 手臂 完全 划 过 身体 前 方 的 动 
作 。 这 个 姿势 可 以 足够 明显 地 被 识别 为 一 个 控制 命令 。 大 多 数 的 用 户 能 够 做 出 这 些 手 势 














Wy S12 这 些 姿势 在 久 做 之 后 会 使 用 户 疲劳 吗 [ 呈 1? 在 一 些 没有 足够 空间 的 环境 中 怎么 给 出 


这 些 姿势 命令 呢 ? 





当 更 高 级 精准 的 信息 由 3D 结构 光 系 统 提供 时 ， 可 能 的 姿势 数量 急剧 增加 了 ， 随 之 增加 的 
还 有 姿势 控制 的 信赖 度 。 如 前 面 所 述 ， 由 于 这 些 系统 能 够 捕 抱 和 处 理 十 分 隐蔽 的 面部 特征 和 姿 
势 ， 它 们 同样 也 能 作用 于 身体 各 部 位 。 轻 微 的 手指 和 手 控制 可 以 在 3D 空间 内 执行 控制 电脑 的 















































动作 。 能 够 执行 小 幅度 动作 和 现 有 的 大 幅度 动作 将 使 人 们 与 电脑 系统 的 交互 变 得 更 加 目 然 。 因 
为 动作 指令 可 以 由 身体 发 出 ， 潜 在 用 户 在 学 习 和 使 用 这 些 控制 时 就 不 会 遇 到 太 多 的 难题 [1 。 


5.6.3 人 机 交互 意义 的 总 结 

















人 机 交互 的 意义 是 重大 的 ， 因 为 这 些 系统 为 用 户 提 供 了 与 他 们 接触 的 运算 环境 和 服务 交 








互 的 男 一 种 方式 。 数 据 的 新 维度 ， 连 同 更 高 的 分 辨 率 使 基于 姿势 的 输入 设备 提高 了 控制 水 





平 。 除 了 前 面 所 举 的 例子 ， 还 有 许多 其 人 








也 的 可 以 受益 于 该 技术 的 人 机 交互 领域 。 智 慧 的 人 机 
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交互 践 行者 将 匠 驭 这 项 快速 发 展 的 3D 传 感 技术 并 创造 出 下 一 波 人 机 交互 的 新 理想 、 新 控制 
和 新 技术 。 


5.7 最 新 发 展 





5.7.1 实时 3D 传 感 与 自然 2D 彩色 纹理 捕捉 


虽然 实时 3D 传 感 已 经 在 市 场 普及 ， 但 是 现 有 实时 3D 系统 仍然 主要 使 用 可 见 光 。 虽 然 
使 用 成 功 ， 但 它们 在 应 用 中 仍 有 局 限 ， 诸 如 在 人 机 交互 、 国 土 安全 和 生物 计量 学 方面 ， 可 见 
光 的 弊端 较 大 。 为 了 解决 这 一 问题 ， 微 软 Kinect 已 经 使 用 了 近 红 外 (NIR) 激光 来 代替 白 
光 ， 但 可 能 会 对 眼 部 造成 伤害 。 随 着 近期 LED 技术 的 突破 ，NIR LED 光 为 此 提供 了 用 眼 安 
全 的 解决 方案 。 

目前 关于 使 用 条 纹 投影 的 红外 高 清 实时 3D 传 感 技术 的 现 有 文献 十 分 稀少 。 而 且 通 过 分 
析 3D 重 构 使 用 的 结构 模型 ， 前 述 的 实时 3D 传 感 技 术 能 同时 提供 一 个 黑白 (b/w) 纹理 。 
但 是 该 纹理 生成 方法 并 非 自然 ， 意 味 着 如 果 没 有 定向 投射 光 ， 纹 理 就 不 能 被 捕捉 到 。 这 常常 
会 因为 已 测量 的 几何 图 形 而 导 致 阴影 投射 在 获得 的 纹理 上 。 为 了 获得 自然 纹理 的 图 像 ， 投 射 
光 必 须 关 掉 ， 保 证 在 纹理 图 像 被 捕捉 时 仅 有 环境 光照 射 。 这 可 以 通过 在 没有 投射 光 时 捕捉 额 
外 的 图 像 来 完成 。 不 过 这 会 极 大 地 降低 测量 速度 。 

想 要 同时 获取 2D 彩色 纹理 更 难 ， 当 然 并 不 是 不 可 行 一 一 用 彩色 相机 照 下 3D 几何 图 形 和 
2D 彩色 纹理 ![@.9, 噶 -8] 。 另 一 种 做 法 是 安装 另 一 台 专 门 用 来 捕捉 彩色 纹理 的 彩色 相机 [87 88 ， 
建立 彩色 相机 与 黑白 相机 的 映射 。 前 者 往往 会 因为 内 在 的 颜色 问题 (如 成 色 显 色 ) 而 影响 3D 
测量 的 质量 。 后 者 通常 要 求 安装 复杂 的 硬件 或 苛刻 的 校准 以 实现 两 种 相机 的 映射 。 

就 我 们 所 知 ， 现 在 还 没有 系统 可 以 同时 实时 地 捕捉 自然 2D 彩色 纹理 和 高 清 3D 几何 图 
形 。 最 近 ，Onu 等 学 者 〈2013 ) [89] 已 经 证 明了 现 有 的 NIR 算法 确实 可 以 应 用 于 3D 传 感 。 在 
本 研究 中 ， 我 们 使 用 了 近 红 外 相机 /投影 仪 的 组 合 来 执行 3D 传 感 以 及 另 一 个 彩色 相机 来 同 
时 捕捉 仅 在 环境 光照 明 下 的 2D 彩色 图 像 。 由 于 这 两 束 光 的 波长 并 不 覆盖 ，3D 形状 和 自然 
2D 纹理 的 图 像 可 同时 获得 ， 速 度 也 未 受 影响 ;， 由 于 彩色 相机 仪 捕捉 可 见 光 而 不 会 被 用 来 测 
量 3D 形状 的 红外 光 干 涉 ， 自 然 的 2D 彩色 图 像 也 可 以 获得 。 

图 5. 18 所 示 为 我 们 开发 的 系统 的 照片 。 它 是 由 一 个 红外 数码 光 处 理 (DLP) 投影 仪 
(LightCommander, Logic PD 公司 ) 、 一 个 高 速 红 外 CMOS 相机 (Phantom V9.1, Vision Re- 
search 公司 ) 和 一 个 彩色 CCD 相机 (DFK 21BU04, Imaging Source 公司 ) 组 成 的 。 应 用 在 该 
投影 仪 的 红外 LED 的 波长 是 850nm。 在 高 速 红 外 CMOS 相机 的 前 端 装置 了 红外 滤 光 器 以 阻 
挡 可 见 光 。 红 外 CMOS 相机 可 以 拍摄 分 辨 率 为 576 x576 的 照片 ， 彩色 CCD 相机 的 分 辩 率 是 
640 x680。 由 于 红外 投影 仪 的 低 密度 ， 高 速 投影 仪 设置 成 以 200Hz 的 频率 投射 二 进 制图 案 ， 
并 且 红 外 相机 精准 地 与 投影 仪 同步 (200Hz) 以 拍摄 2D 条 纹 图 案 。3D 拍摄 速度 是 20Hz， 
因为 它 需要 10 个 移 相 条 纹 图 案 来 重 构 一 个 3D 帧 。 因 此 彩色 相机 调制 在 20Hz 来 拍摄 2D 彩 
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色 图 像 ， 以 期 精准 地 与 3D 拍摄 速度 匹配 。 

彩色 相机 和 红外 相机 通过 外 部 的 触发 定时 电路 来 实现 精准 同步 。 phe erat 
3D 形状 。 注 意 到 重 构 的 3D 几何 图 形 并 不 是 非常 平滑 Ci EAD). RR) BEE FAE 
射 人 脸 部 皮肤 的 深浅 不 同 而 导致 的 。 从 这 些 条 纹 图 像 中， 
WEEE, ae Deiat ee 区 仪 的 直接 照明 ( 鼻 侧 的 阴影 很 明显 )， 黑 白 并 不 自 
然 。 相反 ， 彩 色 纹 理 在 环境 光 下 被 捕捉 到 了 ， 且 无 阴影 问题 显示 。 图 5. 19e 展示 了 将 自然 彩 
色 纹 理 映射 到 红外 3D 几何 图 形 上 的 结果 。 值 得 关注 的 很 重要 一 点 是 ， 由 于 相机 的 离散 效 
果 ， 了 映射 往往 不 会 与 像素 实现 完美 对 齐 。 该 研究 采用 了 线性 内 插 法 来 投射 彩色 纹理 。 同 样 值 
得 注意 的 是 ， 研 究 使 用 的 映射 是 线性 的 ， 没 有 考虑 摄像 头 的 非 线性 扭 遇 。 但 即使 是 线性 模型 
也 并 未 产生 明显 的 伪 影 。 











ZLIB AL 








5.18 同步 3D 几何 图 形 和 自然 彩色 纹理 捕捉 的 系统 开发 。 
来 源 : Ou P, Li B, Wang Y and Zhang S 2013 。 转 载 获 得 美国 光学 学 会 许可 
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图 5.19 实时 捕捉 3D 几何 图 形 与 自然 彩色 纹理 的 实验 结果 。 
a) 使 用 红外 条 纹 图 案 重 构 3D 脸 部 ; b) 黑白 纹理 投影 的 3D 结果 ; c) 彩色 纹理 投影 的 3D 结果 。 
VR; Ou P, Li B, Wang Y and Zhang S 2013 。 转 载 获得 美国 光学 学 会 许可 
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5.7.2 起 高 速 3D 传 感 


实时 3D 传 感 技术 已 经 应 用 于 医学 、 娱 乐 、 计 算 机 科学 和 工程 学 的 多 种 应 用 中 。 实 时 速度 
通常 指 30Hz 或 更 快 的 速度 ， 足 够 捕捉 到 缓慢 的 动作 (如 面部 表情 ) 。 但 是 ， 要 捕捉 较 高 速 的 
动作 ， 如 心脏 跳动 甚至 是 说 话 中 嘴 形 的 变化 ， 当 前 的 技术 就 有 局 限 了 。 速 度 的 突破 需要 能 够 快 
速 抓拍 变换 的 情景 。 我 们 最 近 的 研究 就 一 直 在 开发 二 进 制 散 焦 法 以 解决 限 速 的 问题 上 2] 。 

利用 DLP Discovery 平台 ，Zhang 等 学 者 (2010) [3] 已 经 成 功 研制 了 一 个 可 以 实现 数 万 
赫兹 的 3D 传 感 速度 。 但 是 二 进 制 散 焦 技 术 并 非 完美 无 正 。 相 比 传统 的 DEP 方法 ， 其 测量 能 
力 非常 有 限 : 

1) 测量 的 准确 性 由 于 高 频 谐 波 的 影响 而 较 低 。 

2) 测量 的 深度 范围 相对 有 限 ， 因 为 物体 必须 放置 在 较 小 的 区 域 ， 使 二 进 制 图 案 变 成 质 
HEF WIE SX AIRS! 。 

3) 需要 更 频繁 的 校准 ， 因 为 大 多 数 现 有 的 校准 技术 需要 投影 仪 对 焦 !%] 。 

4) 对 不 同 的 空间 频率 很 难 同时 实现 高 质量 的 条 纹 网 案 !91 。 

为 了 改进 二 进 制 散 焦 法 ， 在 电子 电力 学 领域 开发 的 脉 宽 调 制 (PWM) 技术 被 运用 到 3D 
传 感 领域 。Ayubi 等 学 者 (2010) [9 已 经 引入 了 正弦 脉 宽 调 制 (SPWM) 技术 ，Wang 和 
Zhang (2010) ?2 已 经 开发 了 最 优 脉 宽 调制 (OPWM) 技术 以 进一步 改进 相位 质量 。 但 如 果 
条 纹 线 过 宽 或 过 窗 ，OPWM 和 SPWM 技术 仍旧 面临 挑战 [”]。 

由 于 条 纹 图 案 的 离散 本 质 ，PWM 技术 的 改进 局 限 是 可 以 理解 的 。 这 是 因为 PWM 技术 
毕竟 本 质 上 还 是 一 维 的 。 因 此 ， 如 果 优 化 可 以 双 维 度 展开 ， 未 来 的 改进 空间 仍然 很 大 。Lo- 
hry 和 Zhang (2012) 5 最 近 提出 可 以 局 部 调制 像素 以 模仿 三 角 图 案 的 技术 ， 以 期 减少 高 频 
谐 波 的 影响 。 

就 在 最 近 ， 我 们 注意 到 在 数字 图 像 处 理 领 域 的 高 质量 打印 方面 ， 以 二 进 制图 像 代 表 灰 度 
图 像 的 技术 已 经 相对 成 熟 。 该 技术 称 为 半 调 或 拌 动 ， 自 20 世纪 60 年 代 以 来 一 直 广 为 应 
FAS! Wang 和 Zhang (2012b)1%] 从 简单 的 Bayer 抖动 技术 和 后 来 的 误差 扩散 技术 [2 史 - 100 
中 借用 了 概念 并 将 其 应 用 在 3D 形状 测量 领域 02] 。 我 们 的 研究 发 现 抖动 技术 在 条 纹 线 较 宽 
时 能 极 大 改进 测量 质量 ; 若 条 纹 线 较 罕 ， 则 改进 作用 并 不 显著 。 

大 多 数 的 抖动 技术 不 过 是 在 灰 度 图 像 中 应 用 了 一 个 矩阵， 通过 将 原始 或 改进 的 灰 度 与 矩 
阵 比 较 ， 使 图 像 得 以 “二 进 制 化 ” 。 这 些 算 法 都 被 开发 用 于 为 一 般 灰 度 图 像 生 成 高 质量 的 视 
觉 效果 。 但 是 它们 起 初 不 是 为 利用 某 些 灰 度 图 像 的 内 在 结构 而 专门 设计 的 ， 如 条 纹 图 案 的 正 
纺 结 构 。 因 此 ， 如 果 应 用 独特 的 条 纹 岁 案 的 正弦 结构 ， 应 该 就 可 以 有 巨大 的 改进 技术 效果 。 
近期 我 们 已 经 开发 了 一 些 算法 L81041 来 优化 拌 动 技术 ， 取 得 了 实质 性 的 突破 。 

我 们 测量 了 条 纹 周期 在 7=90 像素 的 3D 膨 塑 ， 让 投影 仪 稍微 地 散 焦 。 图 $. 20 展示 了 结 
果 。 第 一 行 表现 了 捕捉 的 结构 化 图 像 ， 第 二 行 展 示 了 3D 结果 。 很 明显 地 可 以 看 到 ， 如 果 投 
影 仪 几 乎 对 焦 ， 正 方 的 二 进 制图 案 的 二 进 制 结构 是 清晰 的 ， 但 是 抖动 或 优化 抖动 图 案 的 本 质 
是 正弦 的 。 该 实验 也 显示 了 正方 二 进 制 法 (Squared Binary Method, SBM) 和 了 PWM 都 无 法 生 
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成 高 清 3D 结果 ， 虽 然 PWM 稍微 促进 了 SBM， 拌 动 技 术 和 优化 抖动 技术 在 重 构 雕塑 的 相位 
时 表现 良好 。 优 化 抖动 技术 较 拌 动 技术 而 言 有 相当 明显 的 改良 。 

Wang 等 学 者 (2013) ?1 开发 了 测量 活 免 心跳 的 系统 ， 测 出 心跳 速度 约 在 每 分 钟 200 
下 。 该 系统 由 数字 光 处 理 (DLP) 投影 仪 (DLP Light Crafter， 德 州 仪器 公司 ) 和 高 速 CMOS 
相机 (Phantom V9.1, Vision Research 公司 ) 组 成 。 相 机 由 能 够 感应 DLP 投影 仪 定时 信号 的 
外 部 电路 激活 。 相 机 用 来 拍摄 576 x576 分 辩 率 的 图 像 ， 投 影 仪 的 分 辩 率 在 648 x 648 。 

投影 仪 被 设 定 为 以 2000Hz 频率 转换 二 进 制图 案 ， 相 机 设 定 为 2000Hz 频率 进行 图 像 捕 
捉 。 一 个 双 波 长 的 相 移 技 术 被 选用 ， 短 的 波长 是 OPWM RIR”, KAIKE Stucki 抖动 
图 案 ! 101] 5 

图 5.21 所 示 为 兔子 心脏 的 典型 特征 ， 并 清晰 地 显示 了 心脏 的 动态 运动 被 很 好 地 拍摄 了 
下 来 。 没 有 二 进 制 散 焦 技 术 ， 跳 动 的 兔子 的 心脏 表面 就 无 法 正确 地 测量 ， 因 为 我 们 发 现 至 少 
需要 800Hz 的 频率 来 正确 测量 心脏 而 没有 明显 的 运动 伪 影 。 





















































图 5.20 在 投影 仪 稍微 散 焦 时 ， 捕 捉 图 案 的 条 纹 周期 7= 90 像素 。 
a) 正方 二 进 制图 案 ; b) PWM 图 案 ; c) HIRR; d) 优化 拌 动 图 案 ; 
e) ~f) 对 应 重 构 a) ~d) 的 3D 结果 。 
来 源 : Li B, Wang Y, Dai J, Lohry W and Zhang S 2013。 转 载 获 得 Elsevier 许可 
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9 f) Fo poa 
Als. 21 运用 二 进 制 散 焦 技术 拍摄 活 免 心 跳 的 例子 。 a) ~d) 拍摄 的 活 兔 心跳 条 纹 ; 
e) ~h) 相应 的 a) ~d) 3D 结果 的 重 构 。 来 源 : LiB, Wang Y, Dai J, 


Lohry W and Zhang S 2013 。 转载 获得 Elsevier 的 许可 











5.8 结语 





本 章 综述 了 一 般 3D 传 感 知 与 结构 光 技术 ,解释 了 这 些 方 法 背后 的 原理 ， 阅 明了 已 经 开 
发 多 年 的 实时 3D 传 感 数 字条 纹 投 影 (DFP) 技术 ,并 展示 了 近期 应 用 二 进 制 散 焦 法 开发 的 
超 高 速 3D 传 感 技术 的 研究 进展 。 在 3D 传 感 领域 取得 的 突破 是 喜人 的 ,而 且 目 前 已 经 发 展 
到 足够 可 以 应 对 真实 环境 、 日 常生 活 的 挑战 的 成 熟 阶 段 。 在 该 项 技术 广泛 地 应 用 到 我 们 的 生 
活 中 之 前 ,我们 仍 有 一 些 问 题 需要 解决 ， 包 括 生 产 和 购买 这 些 设备 的 成 本 。 但 随 着 该 拉 术 疝 
诸如 人 机 交互 等 领域 的 迈进 ， 其 可 能 性 和 应 用 空间 将 是 无 穷 的 。 
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实时 立体 3D 成 像 技 术 
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立体 视觉 是 利用 两 个 视觉 传感器 同时 作用 重建 景深 的 技术 。 其 基本 原理 蕴含 于 自然 之 
中 ， 空 间 的 不 同 两 点 观察 同一 事物 形成 的 像 差 能 够 为 感知 被 观察 事物 的 景深 提供 足够 信息 。 
这 一 现象 首先 是 由 Charles Wheatstone 副 士 在 大 约 两 个 世纪 前 发 现 的 。 他 声称 : “.……: 大 脑 是 
过 投射 到 两 个 视网膜 上 产生 的 两 张 不 同 图 像 来 感知 事物 的 三 个 维度 的 ……. (i), 

计算 机 和 机 器 人 视觉 系统 的 重要 任务 之 一 是 将 摄像 头 记 录 的 场景 中 各 点 的 深度 及 其 他 原 

始 数值 推算 出 来 。 从 亮度 图 像 中 提取 深度 信息 最 常用 的 方法 是 安装 立体 摄像 机 ( 见 图 6. 1) ， 
然后 通过 该 摄像 机 的 一 组 同步 成 像 照片 获取 所 拍 事物 的 深度 信息 。 同 一 景物 点 在 不 同 成 像 平 
面 中 像素 的 对 应 关系 (也 被 称 作 立 体 匹配 问题 ) 就 形成 了 所 谓 的 视差 图 1。 视差 是 在 观察 
两 景物 点 时 相对 应 的 像素 坐标 的 差别 ， 而 景物 点 的 实际 深度 值 就 可 以 根据 该 视差 值 按 照 一 定 
比例 换算 出 来 。 调 整 好 的 立体 摄像 机 通常 情况 下 垂直 视差 为 零 。 这 就 是 说 ， 视 差 图 一 般 是 用 
来 记录 对 应 的 图 像 像素 的 水 平视 差 值 的 。 然 而 ， 如 何 对 视差 图 进行 精确 高 效 的 估算 却 是 计算 
机 视觉 领域 的 一 个 长 期 存在 的 难题 [3 ] 。 

立体 视觉 在 机 器 视觉 和 、 计 算 机 视觉 5] 、 虚 拟 现实 、 机 器 人 导航 !51 、 同 步 定位 与 地 图 
绘制 7,' 引 、 深 度 测量 和 3D 环境 再 造 :和 过 程 中 的 重要 性 显而易见 。 本 章 旨 在 全 面 描述 实时 
立体 成 像 算 法 和 系统 ， 将 着 重 阐述 立体 视觉 算法 的 主要 特征 ， 有 待 深入 分 析 处 辅 以 相关 参考 
文献 ， 并 会 介绍 与 实时 技术 相关 的 最 新 发 展现 状 。 下 面 将 采用 图 6. 2 所 示 分 类 方式 对 实时 立 
体 3D 成 像 技术 进行 分 类 。 
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类 人 活动 立体 头 部 
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图 6.1 立体 视觉 传感器 











6.2 ”实时 立体 3D 成 像 技术 的 分 类 


6.2 B= 





虽然 在 过 去 的 几 十 年 里 ， 立 体 视 觉 一 直 是 许多 研究 人 员 关 注 的 焦点 ， 而 今 它 仍然 不 失 为 一 
个 非常 活跃 热门 的 专题 。 每 年 新 增 的 相关 文献 和 大 量 新 出 版 的 著作 都 表明 ， 该 项 技术 的 最 新 成 
果 仍 有 很 大 的 改进 空间 。 正 因为 此 ， 每 次 对 最 新 发 展现 状 尝试 进行 的 概述 都 注定 很 快 过 时 。 然 
而 ， 研 究 这 些 概述 我 们 仍然 可 以 推导 出 ， 该 研究 重点 的 变化 和 其 发 展 过 程 中 的 新 趋势 。 

历史 上 ， 第 一 次 收集 、 调 查 和 比较 立体 视觉 算法 出 现在 Barnard 和 Fischler''!°! 、Dhond 
和 Aggarwal! 11] ， 以 及 Brown P 的 综述 文献 中 。 然 而 ， 对 该 研究 问题 影响 最 大 且 对 研究 方向 
有 明确 指引 作用 的 著作 或 许 是 Scharstein 和 Szeliski 3! 的 开创 性 分 类 方式 及 其 综述 文献 。 该 
著作 中 ， 除 了 详细 介绍 了 当代 算法 外 ， 还 提出 了 算法 的 分 类 框架 和 一 个 公开 可 用 的 客观 测试 
平台 。 测 试 平台 包括 一 个 标准 的 立体 图 像 数 据 集 ， 评 估 结 果 准 确 性 的 指标 ， 以 及 一 个 承载 所 
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有 上 述 组 件 的 网 站 ， 以 及 一 个 不 断 更 新 列表 展示 评估 后 的 算法 结果 中 4] 。 

尽管 Scharstein 和 Szeliski 的 研究 重点 是 定义 能 够 使 计算 机 视觉 界 进一步 追求 立体 算法 精 
度 ， 机 器 人 应 用 和 实时 视觉 系统 的 快速 演进 表明 执行 速度 这 一 影响 因素 和 座 度 估计 精确 度 同 
样 (其 至 更 加 ) 重要 。 这 种 趋势 在 后 面 的 文献 综述 中 均 有 所 体现 。 例 如 ， 涉 及 实时 硬件 运 
行 的 文献 05461 ， 以 及 重点 阐述 面向 资源 受 限 系 统 的 实时 算法 文献 7]。 

除了 有 的 文献 对 完整 的 立体 算法 进行 文献 综述 和 对 比 演示 外 ,还 有 些 非常 有 用 的 著作 会 
对 立体 算法 的 基本 执行 模块 的 各 种 蔡 代 解决 方案 进行 对 比 。 因 而 6. 3 节 中 将 要 对 立体 算法 的 
结构 进行 详细 定义 ， 并 明确 其 各 组 成 部 分 。Hirschmuller 和 Scharstein 在 参考 文献 [18, 19] 
中 ， 就 全 局 、 半 全 局 以 及 局 部 立体 算法 的 不 同 (不 ) 相似 测量 方法 (也 被 称 作 匹 配 成 本 函 
数 ) 进行 了 对 比 。 














b) 


图 6.3 立体 图 像 对 的 校正 。 同 一 物体 d 的 两 个 图 像 上 、L WAFA PARIERS Deas L, ,a 替换 





























此 外 ， 在 参考 文献 [20] F, Gong 等 学 者 对 各 种 基于 实时 GPU 加 速 系统 的 匹配 成 本 聚 
合 解决 方案 进行 了 汇总 。 考 虑 到 全 局 方法 的 分 配 差 距 ，Szeliski 等 人 在 参考 文献 [21] PH 
出 了 一 些 能 量 最 小 化 基准 ， 并 应 用 这 些 基 准 对 结果 质量 和 几 种 常见 能 量 最 小 化 算法 的 速度 进 
行 了 比较 。 

立体 匹配 问题 可 以 通过 观察 这 两 幅 立体 图 像 的 几何 结构 并 对 图 像 进 行 校 正 的 方法 得 以 有 
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效 解决 。 通 常情 况 下 ， 双 摄像 头 的 两 个 图 像 平面 不 在 同一 平面 内 。 然 而 立体 算法 可 以 处 理 这 
种 情况 ， 如 果 立 体 图 像 对 已 被 校正 ， 那 所 需 的 计算 就 会 大 大 简化 。 如 图 6. 3 所 示 ， 校 正 过 程 
包括 一 对 原始 图 像 L. 1, 被 另 一 对 投影 等 效 对 ,和 Dy eel J 闪 代 ， 原 始 图 像 被 再 次 投身 
到 与 连接 原始 图 像 的 两 个 光学 中 心 的 基准 线 B 平行 的 公共 平面 P 上 面 。 

对 极 几何 原理 可 以 用 于 识别 两 个 图 
像 的 相同 特征 ， 这 为 解决 立体 匹配 问题 
提供 了 工具 。 如 果 不 进 行 校正 ， 那 么 匹 SN 
配 过 程 还 将 涉及 在 目标 图 像 的 二 维 区 域 a 


内 进行 搜索 。 不 过 ， 如 果 假 定 精准 校正 




















后 的 立体 图 像 对 在 水 平 扫描 线 内 ， 且 归 € ~ 
于 相同 的 纵向 线 ， 则 这 种 匹配 可 以 看 作 oN 


是 一 维 搜索 ， 如 图 6.4 所 示 。 图 像 平面 PETTEE mee 
DG a 图 6.4 纵向 线 的 几何 原理 ， 其 中 C 和 C, 分 别 是 摄像 机 


ae ^ FAS 心 。 S 平面 4 点 六 是 线 E 
E 也 可 能 | ,现在 交替 图 像 平面 内 的 纵 eae et i 上 的 bn CiP 上 4 
FR ,由 上 的 任意 一 点 。 因 此 ， 由 于 SOM: OTR RR 


对 应 点 归于 同一 纵向 线 ， 扫 描 线 上 的 搜 个 
索 过 程 理论 上 减少 了 。 这 些 点 的 水 平 坐标 差异 就 是 差异 值 。 视 差 图 就 是 由 图 像 的 所 有 点 的 差 
异 值 组 成 的 。 


6.3 ”立体 匹配 算法 的 结构 





























报告 中 的 大 多 数 立 体 匹 配 算法 都 或 多 或 少 使 用 相同 的 结构 集 13] 。 基 本 构建 模块 如 下 : 

1) 计算 两 个 输入 图 像 中 每 个 像素 的 匹配 成 本 函数 。 

2) 支持 区 域内 每 个 像素 和 每 个 潜在 视差 值 的 匹配 成 本 计算 的 汇总 。 

3) 图 像 中 每 一 像素 的 最 佳 视差 值 的 选取 。 

4) 成 型 视差 图 的 优化 完善 。 

每 个 立体 匹配 算法 利用 匹配 成 本 函数 建立 两 个 像素 间 的 对 应 关系 ， 该 部 分 将 在 6.3. 1 节 
中 进行 讨论 。 匹 配 成 本 计算 的 结果 包含 视差 空间 图 像 (DSI)。 视 差 空间 图 像 可 以 被 视 为 一 
个 3D 矩阵， 该 矩阵 包括 每 个 像素 和 所 有 潜在 视差 值 的 匹配 成 本 计算 结果 [2] 。DSI 的 结构 如 
图 6.5 所 示 。 

通常 情况 下 ， 匹 配 成 本 聚合 要 超出 支持 区 域 。 这 些 区 域 可 以 是 DST 立方 体 范围 内 的 2D 
区 域 ， 甚 至 是 3D123 ,21 区域 。 每 个 像素 的 最 佳 视 差 值 的 选取 将 随 之 进行 。 选 取 过 程 可 以 是 一 
个 简单 的 胜 者 全 得 (WTA) 的 过 程 ， 也 可 以 是 更 复杂 的 过 程 。 而 更 多 情况 下 ， 该 过 程 是 一 
个 迭代 过 程 ， 如 图 6. 6 所 示 。 通 常 这 一 过 程 还 会 采用 一 个 额外 的 视差 优化 步骤 ， 旨 在 过 滤 计 
算 过 的 视差 值 ， 以 提供 亚 像素 精度 或 为 未 计算 的 像素 分 配 视差 。 大 多 数 的 立体 匹配 算法 的 一 
般 结 构 如 图 6. 6 所 示 。 每 个 模块 将 会 在 本 节 的 剩余 部 分 中 详细 讨论 。 








182 “实感 交互 : 人 工 智 能 下 的 人 机 交互 技术 













































D 视差 图 





结果 改进 
















































































图 6.5 DSI 包 含 所 有 图 像 像素 以 及 图 6.6 立体 匹配 算法 的 一 般 结构 
所 有 潜在 视差 值 的 匹配 成 本 








6.3.1 匹配 成 本 计算 


在 立体 图 像 中 检测 共 斩 对 是 一 个 具有 挑战 性 的 研究 问题 ， 众 称 匹 配 问题 ， 也 就 是 左 侧 图 
像 上 每 个 像素 在 右 侧 图 像 上 寻找 对 应 像素 二] 。 没 有 任何 歧义 实现 匹配 的 像素 应 明显 不 同 于 
其 周围 像素 。 为 了 确定 两 像素 是 否 形成 共 斩 对 ， 采 用 某 种 匹配 成 本 函数 测量 这 些 像 素 的 相似 
性 是 必要 的 。 其 中 最 常见 的 匹配 成 本 函数 是 绝对 灰 度 差异 (AD ) 、 平 方 灰 度 差异 (SD) 和 
归 一 化 互相 关 (NCC)。 各 种 匹配 成 本 的 评价 总 结 在 参考 文献 [13，18，26] 中 。 
绝对 灰 度 差异 (AD) 是 最 简单 的 测量 方法 。 它 包括 简单 的 减法 和 绝对 值 的 计算 。 因 此 ， 
它 是 文献 中 提 及 的 最 常用 的 测量 方法 。 绝 对 灰 度 差异 (AD) 的 数学 公式 是 
AD(x, y, d) = |Ieg (x, y) — Teng (x -d),y) | (6.1) 
AP, Thee: Pl 五 mas 分 别 指 左 侧 图 像 和 右 侧 图 像 的 灰 度 值 ; dd 表示 从 0 到 D -1 的 测试 中 的 差 
值 ; x、y 是 图 像 平 面 上 像素 的 坐标 值 。 
在 某 种 程度 上 ， 平方 灰 度 差异 (SD) 在 表达 两 像素 差异 性 时 更 加 精准 。 然 而 ， 平 方 灰 
度 差异 的 计算 成 本 较 其 带 来 的 精度 增益 而 言 较 高 。 计 算 公式 为 
SD(%, y, d) = (Cnen(Cx，7y) = Tigh( (% - d) nae (6.2) 
归 一 化 互相 关 (NCC) 计算 的 是 图 像 区 域 而 非 单 像素 的 差异 性 。 该 方法 能 够 对 计算 负 
荷 成 本 得 出 可 信 度 高 的 结果 。 其 数学 表达 式 是 
> Lis ts 9) * Fright (% , y- d) 
NCC(x, y, d) = 一 一 2 (6.3) 


k, > Fg (x, y) E > ene y —d) 
2 x, yeW 


X, YE 


式 中 ， 多 表示 需要 计算 的 图 像 区域 。 

亮度 补偿 式 差异 性 测量 法 (LCDM) 在 参考 文献 [27] 中 进行 了 介绍 ， 这 种 测量 法 主要 
用 于 在 照明 条 件 较 差 的 环境 中 进行 的 立体 成 像 算 法 。 被 测量 的 图 像 从 最 初 的 RGB 转化 成 
HSL 色彩 空间 。HSL 色彩 空间 本 质 上 表达 了 颜色 的 亮度 和 它 的 定性 特征 ”1 。 也 就 是 说 ， 无 
论 环境 的 光照 条 件 如何 ， 一 个 对 象 产 生 的 日 值 和 S 值 不 变 。 基 于 上 述 假设 ,亮度 补偿 式 差 
异性 测量 法 (LCDM) 忽视 亮度 值 来 计算 两 种 颜色 差异 性 。 
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色彩 空间 表达 法 略 去 纵 轴 工 则 形成 一 个 仅 由 正和 S$S 定义 的 2D 圆 形 。 这 样 ， 任 何 颜色 都 

可 以 描绘 以 圆心 为 起 始点 的 平面 向 量 。 因 此 ， 任 何 颜色 Pj 可 以 描述 为 一 个 极 向 量 ， 或 者 模 

为 Sk, WEAH Hk 的 复数 。 因 此 ， 两 个 颜色 P A P 的 差别 ， 即 亮度 补偿 式 差异 性 测量 法 
(LCDM) 可 以 通过 计算 这 两 个 复数 之 差 来 计算 。 
LCDMP p, = |P, -P, 


= |S e” -Se | 





= /ST +S} -2S,S,cos(H, - H, ) (6.4) 
另 一 方面 ， 对 于 一 个 特定 区 域 的 所 有 像素 ， 秩 变换 蔡 代 了 同 秩 间 的 像素 灰 度 ， 然 后 计算 
可 能 匹配 间 的 绝对 差异 52] 。 另 一 个 匹配 成 本 算法 是 交互 信息 (Mutual Information) ， 主 要 用 
于 像素 相关 性 。 该 算法 通过 计算 和 评估 联合 及 个 体 箭 和 概率 分 布 可 得 出 一 个 图 像 的 两 部 分 的 
相似 性 。 可 以 通过 相应 图 像 部 分 的 直方 图 得 出 概率 分 布 。 最 后 ， 还 有 基于 相位 的 方法 ， 可 以 
把 图 像 看 作 是 信号 ， 并 执行 相位 相关 函数 的 匹配 。 
参考 文献 [19] 对 确定 像素 相关 性 的 各 种 匹配 成 本 进行 综述 和 评价 。 


6.3.2 匹配 成 本 聚合 


通常 ， 匹 配 成 本 聚合 在 支持 区 域 进行 。 支 持 区 域 一 般 指 支 持 窗口 或 聚合 窗口 。 它 可 以 是 
正方 形 ， 也 可 以 是 矩形 ; 大 小 可 以 固定 ， 也 可 以 根据 需求 变化 。 上 述 成 本 函数 的 聚合 就 是 多 
数 立 体 视 觉 法 的 核心 。 以 绝对 差 之 和 (SAD) 为 例 ， 数 学 表达 式 如 下 : 





SAD(x,y,d) = $, | hea (sx) - Tian( (x - d),y) | (6.5) 
x,yeW 
以 平方 差 之 和 为 例 (SSD): 
SSD(x,y,d) = >) Ton(x,y) -Tian(% - d,y))? (6.6) 


X,YE 


W 

AP, hens Lin KE, ARERR; x. y 表示 像素 的 坐标 ; d 表示 需要 考虑 的 视差 
fH; WEKRE KE, 

一 般 来 讲 ， 越 复杂 的 聚合 方法 越 耗 时 。 基 于 可 扩展 局 部 方法 的 聚合 方式 为 了 获得 更 精确 
的 结果 :2501 舍弃 了 计算 的 简洁 性 。 基 于 自 适应 支持 权重 (ASW) 的 方法 321 通过 使 用 固定 
大 小 的 支持 窗口 获取 精确 的 结果 。 在 这 种 方式 中 ， 像 素 在 聚合 阶段 的 贡献 各 不 相同 ， 而 这 决 
定 了 各 像素 和 窗口 中 心 像素 的 关联 程度 。 尽 管 这 些 方 式 被 广泛 接受 ， 但 使 用 何 种 关联 函数 仍 
然 是 一 个 悬而未决 的 专题 。 

基于 自 适 应 支持 权重 的 匹配 搜索 方法 在 参考 文献 [31] 中 进行 了 介绍 。 给 定 的 支持 窗 
口中 ,像素 的 支持 权重 要 根据 颜色 相似 性 和 几何 接近 度 进行 调整 ， 以 减少 图 像 的 模糊 程度 。 
参考 文献 [27] 中 检查 非 理 想 光 照 条 件 下 的 立体 视觉 和 参考 文献 33] 中 心理 物理 学 启发 
下 的 立体 算法 均 采 用 了 上 述 的 类 似 方法 。 

另 一 方面 ， 一 些 匹配 成 本 函数 中 含有 不 可 分 割 的 成 本 计算 过 程 ， 因 而 不 再 需要 额外 的 聚 
合 步骤 。 例 如 ， 传 统 归 一 化 互相 关 (NCC) 算法 和 秩 变换 要 求 对 需要 计算 的 区 域 有 一 个 先 
验 定义 。 
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在 参考 文献 [20] 中 对 适用 于 可 编程 CPU 运行 平台 并 面向 实时 系统 的 不 同 匹配 成 本 聚 
合 方 法 进行 深入 综述 和 评论 。 


6.4 特征 分 类 


正如 上 面 所 讲 ， 每 年 有 大 量 与 立体 视觉 算法 和 系统 相关 的 论文 出 版 。 这 份 不 断 增 长 的 论 
文清 单 需要 依据 某 种 有 意义 的 标准 进行 分 类 ， 以 易于 管理 搜索 。 传 统 意义 上 来 说 ， 最 常见 的 
是 根据 计算 视差 图 的 密度 和 最 终 视差 值 的 分 配 策略 对 立体 算法 文献 进行 分 类 。 本 节余 下 部 分 
将 对 分 类 的 门类 进行 剖析 ， 并 对 一 些 指示 性 算法 进行 讨论 。 


6. 4. 1 深度 估计 密度 


立体 匹配 算法 可 以 分 为 两 大 类 别 : 一 种 生成 密集 结果 ， 另 一 种 生成 稀疏 结果 。 密 集 立 体 
算法 并 不 一 定 要 获得 每 一 像素 的 视差 估算 。 事 实 上 由 于 立体 对 遮蔽 现象 (即使 有 些 技术 可 
以 让 信息 传递 到 谈 蔽 区 域 )， 通 常 也 不 能 获得 100% 的 密集 结果 。 因 此 ， 密 集 和 稀 玖 算法 的 
界限 划分 ， 要 取决 于 该 算法 真正 在 所 有 像素 匹配 中 使 用 ， 还 是 仅仅 用 于 某 特定 像素 子 集中 。 

6.4.1.1 密集 算法 

随 着 越 来 越 多 的 计算 能 力 应 用 于 视觉 系统 中 ， 密 集 立 体 算法 (dense stereo algorithms) 
也 变 得 越 来 越 流 行 。 如 今 ， 有 关 密 集 算法 的 出 版 物 占 据 了 相关 文献 的 主要 份额 。 除 了 所 需 计 
算 资源 的 可 用 性 ， 男 一 个 促进 密集 算法 使 用 的 因素 是 用 于 评估 的 标准 测试 平台 和 计算 结果 准 
确 性 的 客观 比较 的 存在 。 因 此 ， 根 据 Maimone 和 Shafer! 的 观点 , 当前 立体 匹配 算法 的 研究 
是 由 Scharstein 和 Szeliskit”' ! 中 持 有 的 在 线 工具 所 支配 。 该 网 站 提供 了 一 个 共享 数据 集 ， 并 
且 支 持 所 产生 的 视差 图 的 上 传 ， 自 动 评估 ， 并 于 其 他 结果 同时 列 出 以 便于 比较 。 

正如 已 经 讨论 过 的 ， 并 不 是 图 像 上 的 每 一 个 像素 都 有 一 个 立体 对 图 像 与 之 对 应 。 这 主要 
是 由 于 遮蔽 造成 的 。 然 而 应 用 某 种 全 局 最 优化 或 “填充 ”机 制 的 算法 可 达到 100% BY HE te 
率 。 参 考 文 献 [35] 提出 了 一 种 基于 互信 息 匹 配 成 本 的 分 层 计 算法 。 这 种 算法 的 目的 是 尽 
量 通 过 从 各 个 方向 聚合 各 像素 的 匹配 成 本 来 最 小 化 适当 的 全 局 能 量 孔 数 ， 而 非 通过 迷 代 优 
化 。 最 终 的 视差 图 达到 亚 像素 精准 级 ， 并 能 够 检测 出 遮 珊 区 域 。 该 算法 基于 主 频 为 2. 8GHz 
的 英特尔 Xeon 处 理 器 平台 ， 处 理 Teddy 图 像 集 的 速度 是 0. 77 帧 /s。 结 果 发 现 未 遮蔽 区 域 的 
误差 比例 小 于 所 有 标准 图 像 集 的 3% 。 

前 述 方法 的 增强 版 也 是 由 参考 文献 [36] 的 同一 个 作者 提出 的 。 互 信息 又 一 次 被 用 作 
成 本 函数 ， 扩 展 概念 在 其 中 的 应 用 会 导致 无 纹理 区 域内 灰 度 一 致 视差 选择 和 视差 图 中 填充 漏 
洞 时 的 不 连续 保护 性 插 补 。 它 可 以 成 功 处 理 复杂 的 形状 ， 并 在 无 纹理 区 域 使 用 平面 模型 。 双 
向 一 致 性 检查 和 亚 像素 评估 ， 连 同 无 效 视差 插值 都 参与 在 此 过 程 中 。 实 验 结果 表明 在 非 遗 蔽 
KR, Tsukuba, Venus, Teddy 和 Cones 图 像 集中 不 匹配 像素 的 比例 分 别 为 2. 61、0.25 、5. 14 
和 2.77， 且 每 次 搜索 的 差异 水 平 为 64， 而 且 2. 8GHz 计算 机 记录 的 运行 速度 是 小 于 1 帧 /s 的 。 

6.4.1.2 ARAA 

Pri KAYE (sparse stereo algorithms) 只 为 所 有 图 像 像 素 中 的 某 有 限 子 集 提供 景深 估 
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算 。 稀 玻 视差 图 通过 提取 并 匹配 有 区 别 度 的 图 像 特征 ， 或 根据 某 种 可 靠 性 测量 法 排除 掉 密 集 
算法 的 某 些 结果 来 获得 。 很 多 情况 下 ， 这 些 算 法 源 于 对 人 类 视觉 的 研究 ， 并 且 基 于 例如 对 两 
张 图像 的 部 分 或 边缘 进行 匹配 。 
由 于 大 多 数 现代 应 用 程序 需要 密集 的 视差 信息 ， 因 此 ， 使 用 稀 玻 或 半 密 集 算法 产生 的 视 
差 图 往往 不 太 有 吸引 力 。 然 而 这 些 算 法 在 如 下 情况 却 非常 有 用 : 

。 需要 非常 快速 的 执行 时 间 。 

。 不 需要 整个 图 像 的 细节 。 

。 所 获 的 景深 估算 的 可 信 度 要 求 比 密度 要 求 高 。 

这 些 类 型 的 算法 通常 只 关注 图 像 的 明显 特征 ， 遮 蔽 的 和 纹理 不 佳 的 区 域内 像素 却 无 法 使 
用 这 些 算法 找到 匹配 对 。Veksler 在 参考 文献 [37] 中 提出 一 种 算法 可 以 检测 并 匹配 立体 对 
中 左右 图 像 的 密集 特征 ， 进 而 形成 半 密 集 视差 图 。 密 集 特征 是 在 左 图 像 中 一 组 关联 像素 集 和 
其 对 应 右 图 像 中 的 关联 像素 集 。 这 两 个 像素 集 的 边界 灰 度 边缘 比 其 匹配 误差 更 加 明显 。 所 有 
这 些 计算 过 程 均 在 立体 匹配 过 程 中 进行 。 这 些 算法 计算 出 的 视差 图 对 非 遮 蔽 区 域 的 Tsukuba 
图 像 对 分 为 14 个 视差 级 别 ， 得 出 66% 的 密集 度 和 0. 06% 的 平均 误差 。 

另 一 种 算法 也 是 由 Veksler [3 基于 与 之 前 方法 相同 的 基本 概念 提出 的 。 主 要 区 别 在 于 这 
种 方法 针对 密度 特征 提取 使 用 了 图 形 切 割 算法 。 结 果 显示 ， 这 种 算法 生成 半 密 集结 果 ， 且 特 
征 检 测 区 域 的 半 密 集结 果 相 当 精 确 ， 从 密集 和 误差 比率 来 看 ， 计 算 结 果 更 加 精确 ， 但 计算 需 
要 更 长 的 时 间 。 而 对 于 Tsukuba 图 像 对 ， 密 集 度 可 高 达 75% ， 非 遮蔽 区 域内 的 总 误差 比率 为 
0. 36% ， 运 算 速度 为 0. 17 帧 /s。 对 于 Sawtooth 图 像 对 ， 相 应 值 分 别 为 87% 、0. 54% 和 0. 08 
帧 /s。 所 有 上 述 结果 均 是 从 主 频 为 600MHz 的 奔腾 [TI 电脑 上 获取 的 。 因 而 我 们 可 以 断言 ， 
使 用 更 强大 的 运算 系统 可 以 大 幅 提 速 。 

参考 文献 [39] 中 ,通过 使 用 Harris 角 点 检测 器 提取 特征 点 启动 稀 玻 立体 算法 。 这 些 
特征 点 构成 图 谱 ， 再 利用 图 谱 切 制 法 在 损耗 最 小 全 局 能 量 的 前 提 下 ， 解 决 标记 问题 。 此 外 ， 
稳定 的 光照 变化 结构 张 量 描述 需 也 被 用 于 相似 测量 中 ， 以 便 获 取 更 加 精确 的 结 

最 近 ，Schauwecker 等 人 [4 将 改进 的 高 效 快速 特征 检测 器 (FAST feature detector) 与 稀 
玻 立 体 匹配 算法 结合 。 额 外 的 一 致 性 检测 可 以 滤 除 可 能 的 错误 匹配 ， 最 终 在 简单 的 双核 CPU 
电脑 平台 上 达到 200 Wis 的 运行 速度 。 


6.4.2 优化 策略 


根据 像素 视差 分 配方 式 的 不 同 ， 立 体 匹配 算法 可 以 分 为 三 大 类 。 首 先 ， 有 些 算 法 会 根据 
局 部 相 邻 像素 提供 的 信息 ， 决 定 每 一 像素 的 视差 。 这 种 算法 称 为 局 部 或 基于 区 域 的 方法 。 这 
些 方 法 也 被 称 作 基 于 窗口 的 方法 ， 这 是 因为 给 定点 的 视差 计算 只 取决 于 有 限 支 持 窗口 内 的 灰 
度 值 。 其 次 ， 有 些 算法 对 每 一 像素 的 视差 分 配 是 基于 整个 图 像 提 取 的 信息 。 因 此 这 种 算法 被 
叫 作 全 局 算法 。 有 时 这 些 算法 也 被 称 作 基于 能 量 的 算法 ， 因 为 这 些 算 法 意 在 最 小 化 全 局 能 量 
函数 ， 包 括 数据 项 和 平滑 项 ， 并 将 整个 图 像 考 虑 在 内 。 最 后 一 类 被 称 为 半 全 局 算法 ， 这 种 算 
法 沿 扫描 线 选择 视差 值 ， 以 使 能 量 函 数 最 小 化 (4 。 当 然 还 有 很 多 其 他 的 算法 [1 不 能 严格 
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地 包含 在 这 三 大 类 中 。 立 体 匹配 问题 也 引入 了 多 种 多 样 的 计算 工具 ， 先 进 的 智能 计算 技术 并 
不 少见 ， 其 中 包含 着 很 多 有 趣 而 又 混杂 的 研究 方向 "4 。 

6.4.2.1 局 部 算法 

在 匹配 成 本 的 计算 和 聚合 (如 有 必要 ) 之 后 ， 应 进行 最 佳 候 选 匹配 像素 (和 视差 值 ) 
的 实际 选择 。 多 数 局 部 算法 只 选择 呈现 最 小 匹配 成 本 的 像素 作为 匹配 候选 对 象 。 在 计算 方面 
这 种 简单 的 “ 胜 者 全 得 ”的 方法 很 有 效 ， 但 也 往往 不 够 准确 。 它 会 导致 错误 和 不 连贯 视差 
值 的 产生 。 

在 参考 文献 [45 - 47] P, Ogale 和 Aloimonos 提出 了 一 种 结合 很 多 早期 可 视 模 块 ( 例 
如 ,分 段 、 形 状 和 深度 评估 、 遮 项 探测 和 局 部 信号 处 理 ) 的 组 合 方法 。 采 用 的 相 异 性 测量 
是 不 同 频率 通道 的 相位 差 。 因 而 这 种 方法 可 以 通过 对 比 处 理 图 像 ， 并 区 别 于 其 他 错误 匹配 。 

6.4.2.2 全 局 算法 

相对 于 局 部 算法 ,全 局 算法 计算 结果 准确 ， 但 耗 时 也 多 。 这 类 方法 将 视差 分 配 步骤 视 为 
标记 问题 ， 其 目的 是 通过 结合 数据 项 和 平滑 项 ， 来 寻找 最 佳 差异 函数 d = d(x, y), ATI 
少 全 局 成 本 函数 。 














E(d) =Egata(d) +AEsaooh(d) (6.7) 

式 中 ，Eiis 综 合 考 虑 整个 图 像 中 x、y 的 像素 值 ; En 提供 了 算法 的 平滑 假设 ; A 是 权重 
因子 。 

使 用 合适 的 迭代 算法 能 够 使 能 量 函 数 最 小 化 。 常 用 的 算法 还 包括 图 形 切割 算法 !$%, 1 和 
环 路 置信 传播 (loopy belief propagation) °°! 。 然 而 ， 全 局 算法 的 主要 缺点 是 耗 时 多 ， 计 算 
量 大 。 

参考 文献 [21] 中 对 全 局 立体 匹配 的 各 种 能 量 最 小 化 方法 进行 了 全 面 综述 和 对 比 。 

6.4.2.3 半 全 局 算法 

最 受 欢 迎 的 半 全 局 立体 匹配 算法 是 基于 动态 规划 (DP) 的。DP 是 一 种 广泛 应 用 的 优化 
方法 ， 该 算法 可 沿 图 像 扫描 线 评估 视差 值 4114.511 ， 这 也 是 它 被 称 为 半 全 局 算法 的 原因 。DP 
立体 算法 的 基本 思想 是 将 匹配 问题 作为 能 量 最 小 化 问题 重新 处 理 ， earl ae pies 
内 。 因 此 ， 可 以 建立 能 量 函 数 式 (6.7) , 式 中 引入 平滑 项 的 概念 来 处 理 每 个 扫描 线 的 景 
VE Bt PU CT OL 

DP 算法 介 于 局 部 算法 和 全 局 算法 之 间 ， 它 以 可 接受 的 帧 速率 提供 了 准确 性 高 的 结 
而 且 ， 近 年 来 基于 动态 规划 的 立体 算法 似乎 在 这 两 方面 有 显著 改善 。 参 考 文献 [52，53] W 
述 了 DP 的 硬件 平台 ， 该 平台 可 提供 很 高 的 执行 速度 。 此 外 ， 数 据 显示 ， 自 适应 支持 权重 聚 
合 方案 的 引入 进一步 提高 了 所 生成 的 景深 图 的 准确 度 和 精细 度 [54] 。 


6.5 实施 平台 的 分 类 


许多 立体 视觉 算法 可 以 实现 实时 或 者 近 实 时 操作 。 这 样 的 执行 速度 可 以 通过 优化 局 部 立 
体 算法 ， 或 采用 定制 的 加 速 计 算 硬 件 实现 。 基 于 中 央 处 理 单元 (CPU), EJE Ak H A 
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(GPU) 以 及 现场 可 编程 门 阵 列 (FPGA) ， 或 专用 集成 电路 (ASIC) 的 实现 均 可 用 于 实时 系 
统 中 ， 这 些 运 行 平台 会 在 本 节 中 进行 讨论 。 


6.5.1 仅 用 CPU 的 方法 


在 参考 文献 [55] 中 ， Gong 和 Yang 提出 了 一 种 基于 可 信和 度 的 动态 规划 (RDP) 算法 。 
这 种 算法 应 用 了 一 种 不 同 的 策略 方法 来 评价 匹配 的 可 信和 度 。 根 据 这 一 点 ， 所 提 算 法 的 可 信 度 
是 包括 全 局 最 佳 差 异 分 配 和 不 包括 全 局 最 佳 差 异 分 配 间 的 成 本 差异 。DP 算法 中 ， 扫 描 线 间 
的 连贯 性 问题 是 通过 可 信 度 阔 值 的 处 理 过 程 减少 的 。 其 运算 结果 形成 了 一 个 半 密 集 明 确 的 视 
差 图 。 处 理 Tsukuba 图 像 对 时 ， 密 集 度 为 76% ， 错 误 率 为 0.32% ， 运行 速 度 为 16 帧 /s。 处 
HE Sawtooth 图 像 对 时 ， 密 集 度 为 72% ， 错 误 率 为 0.23% , 运行 速度 为 7 帧 /s。 相 应 的 ， 对 
F Venus 和 Map 图 像 对 ， 相 应 结果 为 73% 、0. 18% 、6.4 Wis 和 86% 、0.7% 、12. 8 Wis, 
所 以 ,报告 结果 显示 ， 如 果 半 密集 度 视差 图 可 以 接受 的 话 ， 运 行 在 2GHz 奔腾 4 计算 机 上 的 
实际 操作 结果 很 令 人 振奋 。 

参考 文献 [56] 中 阐述 了 Tombari 等 人 提出 的 一 种 通过 有 效 分 割 型 AD RERA RIEK 
现 速度 - 精度 权衡 最 大 化 的 局 部 立体 算法 。 报 告 中 Tsukuba 图 像 对 的 处 理 速 率 为 5 Wis, 
Teddy 和 Art 立体 图 像 对 的 处 理 速率 为 1.7 帧 /s。 

最 后 ， 人 参考 文献 [57] 阐述 了 一 种 实时 计算 密集 视差 图 的 局 部 立体 匹配 算法 。 所 使 用 
支持 窗口 的 两 种 型 号 提高 了 基础 绝对 差 之 和 (SAD) 的 准确 性 ， 同 时 也 保证 了 计算 过 程 的 低 
成 本 。 

6.5.2 GPU 提速 的 方法 


计算 机 系统 中 GPU 的 有 效 使 用 可 以 明显 地 通过 利用 GPU 并 行 计算 的 能 力 提高 执行 速度 。 

参考 文献 [58] 中 报告 的 是 基于 可 编程 3D 图 形 处 理 单元 (CPU) 的 分 层 视差 评估 算 
法 。 这 种 方法 既 可 以 处 理 校准 的 图 像 对 ， 也 可 以 处 理 未 校准 的 图 像 对 。 双 向 匹配 连同 绝对 灰 
度 差 的 局 部 聚合 总 和 一 起 使 用 。 在 ATI Radeon 9700 Pro 的 运行 平台 上 ， 对 256 x256 像素 输 
入 图 像 ， 运 行 速率 可 达到 50 帧 /s。 

参考 文献 [59] 中 阐述 的 是 基于 GPU 的 立体 算法 。 这 种 立体 算法 可 以 达到 每 秒 4839 A 
万 次 视差 评估 (MDE/s) 的 实时 处 理性 能 。 通 过 在 匹配 决策 规则 中 使 用 改进 版 的 平方 差 之 
和 ， 以 及 根据 可 信和 度 标准 过 滤 计 算 结果 ， 来 获取 高 精度 的 运算 结果 。 

在 参考 文献 160] 中 ，Kowalczuk 和 他 的 同事 阐述 了 一 种 实时 立体 匹配 方法 ， 该 方法 通 
过 使 用 双 通 道 双 近 法 处 理 自 适 应 支持 权重 聚合 以 及 低 复杂 度 迭 代 视 差 细 化 技术 。 基 于 可 编程 
GPU 运行 平台 使 用 CUDA 能 够 实现 152. 5MDE/s， 对 于 320 x240 且 视 差 水 平 为 32 WAR, 
运算 速度 可 以 达到 62 帧 /s。 

Richard 等 人 的 工作 [6 对 Yoon 和 Kweont311 的 算法 进行 了 改进 ， 并 在 GPU 上 运行 。 运 
行 速度 可 以 达到 14 Wis 以 上 ， 且 仍 能 保留 原始 算法 的 高 质量 。 

参考 文献 [62] 中 报告 的 是 一 种 可 实时 产生 高 质量 结果 的 算法 。 这 种 算法 是 基于 全 局 
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能 量 函 数 最 小 化 而 建立 的 。 分 层 置信 传播 (hierarchical belief propagation) 算法 可 迭代 优化 
平 请 项 ， 但 过 程 中 包括 删除 元 余 计 算 ， 因 而 聚合 速度 很 快 。 为 了 实现 实时 操作 ， 作 者 利用 了 
GPU 的 并 行 优 势 。 实 验 结果 显示 ， 该 算法 对 于 320 x240 像素 自 记录 图 像 ， 在 16 视差 级 的 条 
件 下 ， 处 理 速度 为 16 i/s. JERIKA, Tsukuba, Venus, Teddy 和 Cones 图 像 集 的 不 匹 
配 像素 的 比例 分 别 为 1.49、0.77、8.72 和 4.61。 所 使 用 的 计算 机 为 3GHz 电脑 ，GPU 为 
NVIDIA GeForce 7900 GTX, HIA 512MB 显存 的 显卡 。 

此 外 ， 参 考 文献 [63] 还 阐述 了 另 一 个 在 GPU 运行 平台 上 基于 分 层 置信 传播 的 全 局 立 
体 匹 配 算法 。 该 种 算法 使 用 近似 视差 图 计算 或 在 更 高 层面 使 用 运动 预 估 处 理 ， 来 达到 限制 搜 
索 空 间 ， 同 时 不 影响 所 得 结果 精度 的 效果 。 

参考 文献 [54] 中 ，Wang 等 人 提出 了 一 种 将 高 质量 的 结果 与 实时 性 能 相 结合 的 立体 算 
法 。 该 算法 中 ，DP 与 自 适 应 聚合 步骤 结合 使 用 。 只 有 在 垂直 方向 进行 逐个 像素 的 匹配 成 本 
聚合 ， 从 而 提高 了 扫描 线 间 的 一 致 性 和 明显 的 目标 边界 。 这 项 工作 ， 如 参考 文献 [31] 所 
述 ， 对 于 固定 支持 窗口 内 的 像素 ， 利 用 基于 颜色 和 距离 接近 的 权重 分 配 。 实 时 性 能 是 由 于 计 
算 机 CPU 和 GPU 并 行使 用 实现 的 。 这 种 算法 可 以 在 16 视差 级 上 ， 以 43. 5 Wis 的 速度 处 理 
320 x 240 像素 图 像 ， 或 是 在 16 视差 级 上 ， 以 9. 9 Ws 的 速度 处 理 640 x 480 像素 图 像 。 测 
试 系统 为 3. OGHz 的 电脑 ， 配 以 ATI Radeon XL1800 的 GPU, 

最 后 ， 参 考 文献 [64] 阐述 了 基于 RDP 算法 的 近 实 时 立体 匹配 技术 。 该 算法 可 以 产生 
半 密 集 视差 图 。 算 法 中 使 用 两 条 正 交 RDP 路 径 ， 沿 水 平和 垂直 两 条 扫描 线 寻找 可 靠 视差 值 。 
因此 ， 扫 描 线 间 的 一 致 性 得 以 明显 加 强 。 通 过 利用 可 编程 图 形 硬件 的 计算 能 力 优 势 ， 该 算法 
的 计算 速度 得 到 进一步 提高 。 在 英特尔 奔腾 4 电脑 ， 配 以 可 编程 ATI Radeon 9800 XT 的 GPU 
和 256MB 显存 ， 以 3GHz 的 频率 测试 该 算法 。 结 果 显 示 ， 对 于 Tsukuba 图 像 对 ， 密 集 度 为 
85% ， 运 算 误差 为 0.3% ， 运 行 速度 为 23. 8 Ws, XF Sawtooth 图 像 对 ， 密 集 度 为 93% ， 错 
误 率 为 0. 24% ， 运 行 速度 为 12. 3 Ws, XF Venus 图 像 对 ， 各 值 为 86% 、0.21% 、9. 2 i/s, 
对 于 Map 图 像 对 ， 各 值 为 88% 、0. 05% 、20. 8 帧 /s。 如 果 需 要 ， 该 算法 也 可 用 于 产生 密集 
度 更 高 的 视差 图 ， 但 运行 速度 会 有 所 降低 。 


6.5.3 硬件 执行 (FPGA, ASIC) 


使 用 精心 设计 的 硬件 可 以 真正 提高 立体 算法 的 运算 性 能 。 然 而 ， 并 不 是 所 有 的 立体 算法 
在 硬件 上 都 易于 有 效 运 行 !55] 。 此 外 ,这样 的 立体 算法 的 运行 所 需 的 资源 和 时 间 也 多 ， 而 且 
进一步 的 改善 都 很 难 实现 。 

参考 文献 [65] 中 开发 的 基于 FPGA 的 系统 可 以 在 固定 窗口 上 利用 SAD 方法 实时 计算 
密集 视差 图 。 整 个 算法 包括 径 向 畸变 校正 、 高 斯 拉 普 拉 斯 (LoG) 过 滤 、 匹 配 搜索 和 视差 图 计 
T, 都 是 在 一 个 简单 的 FPGA 上 实现 的 。 该 系统 可 以 在 64 视差 级 和 8 位 深度 精度 的 前 提 条 件 
下 ， 以 30 帧 /s 的 速度 处 理 640 x480 像素 图 像 ， 或 以 50 Wi/s 的 速度 处 理 320 x 240 像素 图 像 。 

另 一 方面 ， 参 考 文 献 [66] 提出 了 一 个 比 之 前 算法 略微 复杂 的 算法 ， 该 算法 使 用 自 适 
应 大 小 窗口 ， 基 于 SAD 算法 实现 。 该 方法 通过 分 层 降低 窗口 大 小 迭代 优化 匹配 结果 。 由 该 
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方法 获得 的 结果 优 于 固定 窗口 算法 10% 。 该 算法 系统 架构 是 完全 并 行 的 ， 可 以 同时 处 理 所 
有 的 像素 和 窗口 。 在 8 位 灰 度 图 像 精 度 和 64 视差 级 的 条 件 下 ， 处 理 64 x64 像素 图 像 的 速度 
为 30 帧 /s。 资 源 消 耗 为 4. 25 万 个 逻辑 单元 ， 相 当 于 82% 的 FPGA 器件。 

参考 文献 [67] 提出 了 算法 的 核心 是 使 用 自 适 应 窗口 的 SAD 聚合 。 在 单个 FPGA 48 fF 
上 ， 实 现 了 基于 硬件 的 CA 并 行 流水 线 。 对 于 640 x480 像素 图 像 ， 在 视差 范围 为 80 像素 的 
条 件 下 ， 实 现 了 接近 275 Ws 的 运行 速度 。 基 于 硬件 的 算法 可 达到 较 高 的 运行 速度 ， 同 时 
降低 了 准确 性 。 设 备 利 用 率 是 83% ， 共 使 用 14. 9 万 个 门 器 件 (gates), 

参考 文献 [52] 中 在 FPGA 板 上 实现 了 SAD BYE, FPGA 板 的 特点 为 外 部 存储 器 和 Nios 
I[[ 树 入 式 处 理 器 ， 运 行 速度 为 100MHz。 该 算法 在 32 视差 级 条 件 下 ， 以 14 Wis 的 速度 处 理 
320 x240 像素 ， 产 生 密集 8 位 视差 图 。 关 键 资源 是 大 约 1.6 万 个 逮 辑 单元 ， 通 过 迁移 到 更 
复杂 的 设备 ， 该 算法 可 以 升级 得 到 更 好 的 效果 。 

同样 的 作者 ， 在 参考 文献 【53 ] 中 提出 了 一 种 改进 的 基于 平方 差 之 和 的 算法 ， 这 种 算 
法 需 在 固定 的 3 x 3 聚合 窗口 和 硬件 媒体 加 强 滤 波 器 的 配合 下 使 用 。 该 系统 可 以 在 64 视差 
级 条 件 下 ， 以 162 Wis 的 速度 处 理 640 x480 像素 图 像 。 这 一 算法 需要 3. 2 万 个 逻辑 单元 ， 
相当 于 大 约 6. 3 万 个 门 器 件 。 

参考 文献 【68] 中 的 Ambrosch 和 Kubinger 提出 了 局 部 立体 算法 在 FPGA 中 实现 ， 这 种 
算法 将 基于 递归 的 统计 变换 和 基于 自 适 应 支持 窗口 的 SAD 相 结合 ， 该 算法 可 以 以 60 帧 /s 的 
速度 处 理 750 x400 像素 图 像 。 

Zicari 等 学 者 在 参考 文献 [69] 中 对 FPGA 实施 了 配 以 额外 一 致 性 检查 的 SAD 算法 ， 这 
种 算法 可 以 在 30 视差 级 条 件 下 ， 以 97 帧 /s 的 速度 处 理 1280 x780 的 灰 度 图 像 。 

此 外 ，Kostavelis 等 人 [7 的 工作 主要 包括 在 FPGA 上 实施 基于 SAD 的 密集 立体 算法 ， 该 
算法 可 用 作 行 星 自 主机 器 人 的 视觉 系统 。 这 种 在 Xilinx Virtex 6 FPGA 器 件 实现 的 立体 算法 能 
够 在 200 视差 级 别 和 1/4 像素 精度 条 件 下 ， 以 0. 59 Ws 的 速度 处 理 1120 x 1120 像素 图 像 ， 
研究 发 现 这 种 算法 远 远 超过 了 空间 探测 车 上 的 需求 精度 。 

参考 文献 [71] 探讨 了 DP 的 使 用 ， 并 在 网 格 解 空间 上 实现 了 使 用 DP 搜索 方法 。 它 可 
以 处 理 双 摄 像 头 ， 即 光 轴 相交 的 相机 。 从 一 对 摄像 头 得 到 的 图 像 可 通过 使 用 线性 内 插 法 矫正 
后 计算 出 视差 值 。 该 体系 架构 为 线性 脉动 阵列 式 ， 且 使 用 的 是 简单 的 处 理 单元 ， 该 设计 规范 
简单 ， 且 易于 实现 并 行 计算 。 算 法 运行 需要 208 个 处 理 单元 ， 产 生 的 系统 在 208 视差 级 条 件 
下 ， 以 15 M/s 的 运行 速度 可 以 处 理 1280 x 1000 像素 图 像 。 

上 述 方法 的 扩展 版 在 参考 文献 [72] 中 进行 了 阐述 ， 扩 展 版 与 之 前 版 本 最 主要 的 不 同 
在 于 考虑 结合 从 上 一 行 得 到 的 数据 ， 从 而 更 好 地 保证 扫描 线 间 的 不 一 致 。 该 算法 的 速度 为 
30 帧 /s， 可 在 128 视差 级 条 件 下 ， 处 理 320 x240 像素 图 像 。 使 用 的 处 理 单元 数量 为 128。 
对 于 Tsukuba, Map, Venus 和 Sawtooth 图 像 集 ， 在 遮蔽 区 域内 视差 误差 大 于 1% 的 像素 百 分 
比分 别 为 2. 63% 、0.91% 、3.445% 和 1.88% 。 

最 后 ， 参 考 文 献 [53] 中 提出 了 一 个 自 定义 并 行 DP 算法， 而 且 运 行 过 程 中 也 会 使 用 辕 
定 3 x3 聚合 窗口 和 硬件 媒体 增强 过 滤器 。 此 外 ， 还 利用 了 扫描 线 间 的 支持 。 该 系统 在 65 视 
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差 级 条 件 下 ， 可 以 以 81 Wis 的 速度 处 理 640 x480 像素 图 像 。 运 算 平 台 需 要 27 万 个 逻辑 器 
件 ， 相 当 于 大 约 160 万 个 门 器 件 。 

基于 ASIC 的 立体 算法 可 以 产生 非常 快速 的 系统 ， 甚 至 比 使 用 FPGA 时 速度 更 快 。 然 而 ， 
选择 ASIC 的 成 本 更 高 ， 除 非 在 大 规模 生产 的 情况 下 。 原 型 机 制造 时 间 相 当 长 ， 而 且 运 算 结 
果 也 是 有 高 度 的 过 程 依 赖 性 。 任 何 的 改进 都 很 困难 ， 而 且 也 会 费时 费力 。 因 而 在 多 数 情 况 
F, ASIC 平台 的 性 能 优势 并 不 能 证 明 它 比 其 他 硬件 更 有 利 。 这 也 是 基于 ASIC 实现 的 立体 算 
法 文献 与 基于 FPGA 的 文献 相 比 少 之 又 少 的 主要 原因 。 已 发 表 的 文献 认为 基于 ASIC 硬件 的 
立体 匹配 算法 !723, 鸣 仅 限 于 使 用 平方 差 之 和 (SAD) ， 报 告 中 的 架构 广泛 使 用 了 并 行 运算 ， 似 
乎 很 有 前 景 。 





6.6 结语 





立体 视觉 仍然 是 解决 3D 成 像 问题 的 一 个 很 有 吸引 力 的 解决 方案 。 本 章 讨论 了 立体 视觉 
算法 背后 的 基础 理论 ， 根 据 各 算法 的 主要 特点 和 运行 平台 进行 了 分 类 ， 并 对 立体 算法 的 简要 
现状 予以 介绍 。 

由 此 得 出 的 结论 是 ， 立 体 视 觉 关 注 的 重心 似乎 发 生 了 转移 ， 人 们 不 再 像 以 前 那样 追求 精 
度 ， 如 今 更 多 是 对 实时 性 能 的 需求 。 这 个 问题 的 解决 方案 大 体 分 三 类 : 一 是 在 强大 的 先进 
CPU 中 运行 简单 算法 ; 二 是 充分 利用 可 编程 GPU 协同 处 理 器 ; 三 是 开发 与 FPGA 相 兼 容 的 
硬件 运行 平台 。 后 两 种 的 选择 似乎 越 来 越 普及 ， 因 为 它们 可 以 将 实时 执行 速度 和 非常 精确 的 
深度 评估 有 效 结合 。 另 一 个 有 趣 的 现象 是 局 部 算法 不 再 是 实现 实时 计算 的 唯一 算法 。 研 究 表 
明 ， 半 全 局 甚至 是 纯粹 的 全 局 立体 算法 也 可 以 达到 可 接受 的 帧 速率 。 这 种 趋势 似乎 在 不 断 增 
长 ， 这 是 由 于 更 强大 的 平台 正在 逐渐 变 得 可 用 ， 并 且 更 多 高 效 优化 的 视觉 算法 也 在 被 人 提出 。 

立体 视觉 技术 的 成 熟 以 及 其 适应 室内 室外 环境 的 能 力 使 得 立体 视觉 技术 在 与 其 他 3D 传 
感 技术 的 激烈 竞争 中 保持 地 位 稳固 。 因 而 ， 立 体 视觉 算法 的 实时 实现 在 类 似 现 代 人 机 交互 系 
统 、 家 庭 娱乐 系统 和 自主 机 器 人 等 系统 中 占有 一 席 之 地 。 
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比利时 SoftKinetic 传感器 公司 


7.1 -引言 














在 过 去 十 年 ， 实 时 3D 用 户 交 互 技术 推动 了 新 应 用 程序 的 不 断 开 发 ， 人 们 越 来 越 多 地 意 
识 到 3D 独特 的 成 像 优势 。 人 们 熟知 的 大 多 数 3D 传 感 技术 包括 立体 视觉 、 飞 行 时 间 法 
(TOF) 以 及 结构 光 方 法 。 本 章 将 论述 飞行 时 间 法 技术 。 

本 章 的 前 面部 分 我 们 将 会 详细 介绍 这 种 技术 ， 以 此 来 区 分 不 同类 型 的 3D 成 像 技 术 ， 例 
如 ， 脉 冲 飞 行 时 间 法 和 持续 飞行 时 间 法 。 然 后 ， 我 们 将 会 介绍 操作 原则 和 主要 方程 式 ， 并 论 
述 这 些 原理 的 精准 性 。 最 后 ， 我 们 会 探讨 存在 的 挑战 和 有 竺 改进 之 处 ， 一 些 摄像 系统 的 典型 
性 能 价值 ， 以 及 对 当前 全 球 在 分 辩 率 方面 的 尖端 研究 。 

















7.2 ”飞行 时 间 法 3D 传 感 





就 在 最 近 ， 各 种 飞行 时 间 法 (TOF) 3D 成 像 技 术 已 经 证 实 了 其 在 更 广泛 的 3D 应 用 中 的 
可 靠 性 上 -3] 。 大 体 来 说 ， 在 所 有 的 TOF 3D 成 像 方案 中 ， 均 有 一 束 调制 光波 投射 在 背景 上 ， 
其 反射 可 以 被 检测 到 并 用 来 确定 光波 的 往返 时 间 和 上 距离 5 。 通 过 把 反射 光线 聚焦 在 像素 矩 
阵 上 ， 完 整 的 深度 图 像 会 立即 呈现 。 该 方法 存在 的 挑战 是 ， 感 光 范 围 和 动态 范围 需要 在 比 光 
波 高 达 几 个 数量 级 的 环境 光 的 存在 下 ， 依 然 能 测量 微弱 的 反射 信号 。 在 这 方面 的 一 些 研究 已 
ZF ge?! 。 

在 飞行 时 间 法 的 计算 中 ， 距 离 是 通过 测量 光线 在 光源 和 目的 地 之 间 的 往返 时 间 得 出 的 。 
该 往返 时 间 通 过 与 光速 的 乘积 被 转换 成 距离 : 

c =3 x 108m/s =2 x 150m/ps =2 x0. 15m/ns =2 x0. 15mm/ps 
该 光学 雷达 技术 最 早 曾 在 光 探 测 和 测 距 (LIDAR) 设备 中 实施 过 ， 这 个 装备 应 用 了 带 有 
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单 点 探测 器 的 激光 器 来 获取 TOF 或 距离 。 扫 描 背 景 可 以 形成 一 个 完整 的 3D 图 像 。 这 个 曾经 
乃至 现在 仍 被 应 用 于 多 个 领域 ， 并 且 数 年 来 得 到 了 很 大 程度 的 完善 ， 但 扫描 过 程 导 致 速度 非 
常 缓慢 。 而 且 该 设备 昂贵 易 损 ， 在 扫描 景象 时 需要 机 械 移动 各 部 件 。 

近年 来 ， 由 于 集成 电路 技术 的 改进 ， 基 于 飞行 时 间 法 原理 ， 建 立 微型 飞行 时 间 法 传感器 
的 矩阵 已 经 可 行 !"67]。 这 样 就 可 以 制作 成 完整 的 3D 摄像 系统 。 在 这 些 系统 中 ， 通 常 使 用 发 
光 二 极 管 (LED) ， 整 体 的 景象 立刻 会 被 照明 。 而 反射 光线 将 会 聚集 在 TOF 探测 器 的 阵列 中 
( 见 图 7. 1) 。 每 个 探测 需 同 时 检测 到 一 点 的 距离 ， 从 而 立刻 就 会 获得 一 个 完整 成 像 的 范围 信 
息 。 为 了 把 错误 率 降 到 最 低 ， 活 跃 光源 和 接收 器 会 被 布置 在 相距 很 近 的 地 方 。 这 样 能 使 设备 
紧凑 排放 并 避免 了 遗 蔽 效应 。 














RERE 














图 7.1 飞行 时 间 法 范围 成 像 技 术 。 该 主动 光照 反射 了 在 整个 场景 前 形 
成 的 光波 ,包括 飞 行 时 间 法 所 需 信息 以 推断 出 场景 中 所 有 点 的 距离 























这 种 被 称 为 间接 或 持续 飞行 时 间 
法 的 技术 因为 速度 快 和 稳定 性 高 而 具 
有 优越 性 。 与 其 他 飞行 时 间 法 技术 相 < | 
比 ， 其 因为 无 需 移动 部 件 而 受到 欢迎 ， 
具有 良好 的 发 展 前 景 。 根 据 参考 文献 SIDE 
[8] 论述 ， 间 接 飞行 时 间 法 3D 摄像 
将 会 自然 取代 现存 相应 的 2D 视觉 
术 。 基 本 操作 原则 在 图 7. 2 说 明 。 访 
技术 可 进一步 分 成 脉冲 式 和 持续 式 
两 种 。 

本 章 接 下 来 将 简短 地 综述 脉冲 飞 ER 
行 时 间 法 技术 ， 随 后 重点 讨论 持续 飞行 
时 间 法 技术 。 因 此 我 们 将 此 概括 地 称 为 
“飞行 时 间 法 ” (TOF) 。 如 果 提 到 脉冲 。 图 7 2 飞行 时 间 法 原理 图 。 每 个 像素 中 ， 距离 是 通过 测 
飞行 时 间 法 ， 我 们 会 明确 说 明 。 量 每 个 像素 的 飞行 时 间 获得 的 ， 然 后 除 以 2 再 乘 以 光速 c 





每 个 像素 
& 行 时 间 
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7.3 脉 中 飞行 时 间 法 








在 飞行 时 间 法 测 距 法 中 ， 光 脉冲 会 投射 在 背景 上 ， 与 此 同时 高 精度 的 秒表 开始 测量 每 个 
像素 所 用 的 飞行 时 间 。 光 脉冲 需 到 达 目 的 地 然后 返回 原点 。 一 旦 发 现 光 脉 冲 返 回 ， 像 素 里 的 
一 个 机 制 将 会 终止 秒表 记 时 ， 这 样 就 会 显示 出 光 脉 冲 飞行 时 间 。 

由 于 光 脉 冲 行经 了 两 次 路 线 〈 往 返 ) ， 测 量 的 每 6. 67ns 的 时 间 对 应 lm 的 距离 。 一 个 精 
准 的 时 间 要 比 1mm 所 需 的 7ps 测试 的 效果 要 好 得 多 。 可 以 通过 重复 测量 所 需 的 次 数 以 及 求 
所 得 结果 的 平均 值 来 提高 精准 度 。 

飞行 时 间 法 的 最 大 的 缺陷 是 ， 在 接收 一 端 必须 同时 有 高 动态 范围 和 大 带宽 。 在 运用 这 种 
技术 时 ， 让 接收 路 径 精 准 地 探测 反 向 散射 的 光 脉 冲 是 很 困难 的 ， 原 因 如 下 : 

1) 光学 阐 值 不 是 一 个 固定 的 值 ， 而 是 会 因为 物体 的 背景 和 距离 以 及 目标 反射 率 而 
改变 。 

2) 大 气 衰 弱 导 致 光 脉冲 散布 ， 并 且 使 接收 到 的 脉冲 斜坡 变 平 。 因 此 ， 一 个 大 功率 的 脉 
冲 光 源 是 非常 必要 的 。 

男 一 方面 ， 除 了 需要 发 射 大 功率 ， 光 源 还 需要 能 够 生成 快 上 升 超 短 脉 冲 光 ， 这 对 于 确保 
入 射 的 脉冲 光 的 测量 精度 是 很 有 必要 的 。 最 近 市 场 推出 的 激光 器 或 激光 二 极 管 是 唯一 能 提供 
短 脉 冲 宽度 的 具有 高 功率 的 光学 元 件 。 它 通常 能 在 10Hz 不 断 重 复 脉冲 。 其 较 低 的 重复 率 极 
大 地 限制 了 脉冲 TOF 系统 的 帧 频 [9] 。 















































7.4 持续 飞行 时 间 法 





我 们 将 开始 讨论 持续 飞行 时 间 法 ， 相 较 于 前 面 所 述 的 运用 单一 脉冲 测 距 ， 该 方法 发 射 的 
是 连续 调制 光 。 这 种 持续 性 测量 方案 能 生成 更 高 的 信 品 比 ， 且 使 用 较 少 的 峰值 功率 ， 从 而 对 
光源 要 求 不 高 。 更 典型 的 方法 是 使 用 重复 的 脉冲 波 或 正弦 波 调 制 。 

这 个 技术 的 优点 是 对 于 带宽 和 功率 的 光源 要 求 非常 低 以 及 较 高 的 信 噪 比 和 可 配置 性 。 对 
长 距离 的 测量 将 会 导致 更 高 的 信 噪 比 并 且 反 之 亦 然 。 这 是 在 距离 精度 和 图 像 刷 新 率 之 间 一 个 
良好 的 权衡 。 这 个 系统 是 稳固 的 ， 因 为 它 不 包含 任何 可 移动 的 部 件 。 它 在 视觉 方面 很 安全 ， 
因为 它 依 靠 散布 的 而 非 校准 的 光线 。 它 本 身 的 光源 可 以 是 LED 或 激光 器 ， 其 中 激光 器 可 以 
产生 更 快 的 调制 频率 。 因 为 这 个 技术 会 立刻 抓 取 完整 的 图 像 ， 它 可 以 实时 进行 操作 ， 而 且 能 
很 容易 地 达到 200Hz 以 上 的 帧 速率 。 除 此 以 外 ， 这 个 系统 不 包含 特别 昂贵 的 各 种 组 件 ， 一 个 
低 成 本 的 3D 相机 就 可 以 完成 这 个 任务 。 另 外 ， 图 像 传感器 芯片 的 输出 可 以 通过 一 些 简单 的 
公式 换算 为 深度 网 ， 因 此 无 需 繁琐 的 后 续 过 程 来 完成 这 一 目标 。 

这 个 技术 的 不 足 之 处 是 距离 的 计算 是 模糊 不 清 的 ， 因 为 测量 的 目标 要 比 离 相机 可 见 目标 
返回 的 距离 范围 远 很 多 ， 这 使 得 测量 目标 看 起 来 比 实际 要 更 近 一 些 。 在 大 多 数 情 况 下 ， 可 见 
距离 是 由 调制 频率 或 脉冲 率 决 定 的 。 比 如 ， 一 个 典型 的 20MHz 调制 波 可 以 产生 7.5m 的 可 见 
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范围 。 在 测量 距离 中 存在 的 模糊 性 通常 被 称 为 混 县 现象 。 








7.5 计算 方法 
在 本 章 中 ， 我 们 将 会 推导 一 些 常 用 的 TOF 公式 。 本 章 假定 正弦 调制 ， 类 似 的 公式 也 可 
以 通过 其 他 调制 波 获得 。 飞 行 时 间 法 ty 可 以 表示 成 介 于 发 送 和 接收 调制 信号 的 相位 差 w: 
(7.1) 








a=t\o 


AF, o 是 调制 的 角 频 率 。 飞 行 时 间 法 的 目标 就 是 要 求 出 这 个 相位 差 。 时 间 延 迟 和 距离 可 以 





用 下 面 这 个 公式 获得 : 
2 (7.2) 


i a 
distance =tyc =—c = C 
o 27h. 





式 中 ,fyi 是 调制 频率 (如 20MHz); c 是 光速 度 ， 为 3 x 108m/s, 
为 了 简便 ， 我 们 假定 空气 折射 率 应 该 为 1。 如 图 7.3 所 示 ， 通 Be 
过 测量 同 相 (7) MEZ (Q) 所 要 求 的 相位 差 参 数 ， 我 们 就 a 

可 以 在 这 个 公式 中 找到 唯一 不 可 知 数 , 就 是 相位 差 w。 相 位 差 Fa 
可 以 通过 以 下 公式 获得 : SN | 


& = arctan (2) (723) 


图 7. 4 所 示 为 一 个 连续 时 差 测 距 的 典型 信和 号 路 径 。 首 先 ， 
调制 光 发 射 人 场景 中 ， 随 后 其 反射 被 聚焦 在 探测 器 节点 ， 转 化 图 7.3 I Q, a 之 间 关 系 
成 电流 信和 号。 电流 信号 是 由 在 0* 和 180° 的 原始 调制 信号 的 各 的 测 角 圆圈 ， 用 来 测算 基于 正 
相 移 混合 产生 。 随 后 产生 的 信号 逐渐 积分 并 且 彼 此 缩减 。 在 本 蓄 调 制 信号 的 时 差距 离 
章 的 后 面 我 们 会 详细 地 介绍 ， 其 整个 过 程 需 要 进行 两 次 ,分 别 使 用 0°* 和 90° 的 相 移 调制 光 来 

V igoe 
CQ ae 





获得 电压 信号 ， 即 为 7。 


Jinod( 0=0°) 
finod 4=90°) le 
L © 人 


持续 飞行 时 间 法 原理 获得 距离 测算 的 过 程 包含 了 诸多 不 同 组 件 。LED DAZE 
边 发 射 光 到 场景 中 ， 在 右 端 反 射 后 被 检测 到 。 可 知 ， 它 与 原始 调制 信号 的 0 和 180? 的 各 种 相 
移 发 生 了 混合 ， 并 随 着 时 间 的 推移 进行 了 积分 ， 缩 减 成 对 应 的 电压 Vi E Vo (= Vo — Vigor )。 
随后 ，90° 的 相 移 调制 照明 被 用 来 生成 一 个 电压 信号 ， 即 为 @( = Viso -Vao ) 
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图 7.4 使 用 
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调制 信号 。 





我 们 现在 详尽 地 研究 一 下 该 方法 的 数 。 A 
学 计算 。 在 图 7.5 中 ， 上 图 代表 探测 信号 Bn 一 
电流 幅 值 和 时 间 。 该 信号 有 一 个 背景 光 组 ”| 

件 ， 为 了 简化 ， 假 定 该 组 件 随 着 时 间 变化 ， 


保持 恒定 。 一 个 调制 光 组 件 如 下 所 示 : 


Tye, =Tpr +y sinlw@yt +a) (7.4) 





AA, wy 为 27fr; 有 对 应 背景 光 产 生 

的 电流 ; Dy 对 应 调制 光 产 生 的 电流 。 
为 了 求 出 a, 需要 用 信号 乘 以 方 波 

( 见 图 7.5 的 中 图 )。 一 次 乘 以 与 发 送 的 基 


. A 
Ieorrelation 











本 信和 号 同 相 的 方 波 ， 一 次 乘 以 与 基本 信和 号 图 7.5 持续 飞行 时 间 法 的 原理 。 上 图 显示 出 探测 














异 相 180° 的 方 波 。 通 过 这 个 方法 ， 我 们 把 ee ne 
+H eH 2s 4 个 部 分 ， 景 信 号 组 中 图 显示 应 
周期 电流 分 成 了 两 个 部 分 ， 如 图 7.5 下 图 关系 。 下 图 代表 到 达 每 个 混合 

所 示 。 各 个 部 分 随 着 时 间 进 行 积分 ， 从 而 


0° 和 180° 相 移 的 相关 测量 
产生 相应 的 电压 ; j 








To。 = : |, TK (1) dt 
Cin 


AP, KO) 描述 的 是 由 混合 器 执行 的 方 波 乘法 : 


K(t) =1, 对 于 (n -1)7T<i<n 广 


=0, 对 于 nn 地 <t<n7， 其 中 neN 
IRIS tin =2T, zeN: 


tint 


调制 信号 上 面 有 一 个 DC A 











于 混合 器 的 电压 与 时 间 的 
器 输出 的 电荷 ， 有 助 于 


























(7.5) 


(7.6) 


A 
=>Vp = al: timtpL + “haf sin( wyt + a) dt ) 


int 











2 Qar 
以 同样 的 方式 ， 我 们 可 以 获得 Viso, 的 表达 式 : 
Vou Van 


Viggo =~ ~ BT COSA 


2 27 


S int (i Tur ) 
= 96 biogr Ee) + cos(0 +a) 


(7.7) 


(7.8) 


用 式 (7.7) WAR (7.8)，, 我 们 可 以 得 到 背景 水 平 的 独立 测量 7 值 : 


V 

ML 

Voe — Vigge = ——cosa « [ 
T 


(7.9) 
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继续 测量 循环 ， 与 90" 和 270" 相 移 信号 混合 ， 我 们 可 以 获得 一 个 与 0 有 一 定 比 例 的 值 : 
Voge — 万 70。 = p Sino” Q (7. 10) 
于 是 可 以 从 下 面 的 公式 求 得 想 要 的 相位 延迟 ; 
& = arctan [| (7.11) 
Voe — Vigoe 
连同 式 (7.2) ， 我 们 可 以 使 用 持续 飞行 时 间 法 找到 一 个 通用 的 表达 式 求 得 距离 : 
。 __ C Voge = V70° 
distance = ma oe (7.12) 


上 述 我 们 可 以 推断 出 为 了 获得 距离 估算 ,需要 用 到 四 个 测量 数据 ， 即 为 Voes Voo 
Vison Voo MERRE, H Vo M Viggo 近乎 相等 的 时 候 ， 式 (7.12) 会 得 出 较 差 的 结 
果 。 因 为 在 这 种 情况 下 ， 分 母 会 很 小 。 解 决 这 个 难题 的 办 法 就 是 要 运用 反 余 切 法 而 不 是 反正 
切 法 ， 于 是 我 们 可 以 从 一 个 大 分 母 中 获得 一 个 小 指数 。 


7.6 精度 


对 最 终 深度 精度 产生 影响 的 不 同 噪声 成 分 进行 综述 非常 重要 。 这 个 是 通过 研究 随机 噪声 
对 测量 Voe \ Voge N Vigo ~ 了 270。 关于 相位 错误 ba A 通过 式 (7. 12) 9 并 
且 运 用 错误 传播 的 规律 ， 我 们 可 以 得 到 一 个 关于 6a 的 通用 表达 式 : 


da da da da 
[Bye yee Gee Gee 0.8 


我 们 可 以 用 这 个 公式 解决 这 些 特殊 的 相位 值 ， 例 如 ，0°、45° 、90°、135° 和 180°， 这 样 
就 可 以 得 到 16]. 























D, D, VB D, 1 
ODE a = A” ig 2SNR’ 
AP, D, 是 一 个 由 调制 频率 决定 的 模糊 距离 ，4 是 光电 子 数量 的 调制 信号 产生 的 幅 值 ，VB 
对 应 的 是 由 背景 光 散 射 噪声 产生 的 光电 子 数量 。 值 得 注意 的 是 ， 这 个 情况 下 信 品 比 (SNR) 


没有 以 dB 表示 。 代 入 公式 D, =3 ， 我 们 可 以 得 到 : 





(7. 14) 











c 1 1 
P= ha, 2SNR 
我 们 看 到 ， 两 个 参数 影响 相机 系统 的 精度 言 噪 比 和 调制 频率 。 最 大 化 这 些 将 导致 最 
佳 的 相机 精度 。 在 大 多 数 情况 下 ， 噪 声 性 能 受到 不 可 避免 的 散 粒 噪声 的 限制 ， 因 此 我 们 从 中 
abe 提高 系统 性 能 的 个 关键 方法 是 优化 言 号 幅度 并 使 用 高 调制 频率 。 光 源 和 像素 都 
能 够 处 理 这 些 更 高 的 频率 。 通 常 LED 可 以 支持 高 达 几 十 MHz (例如 20MHz) ， 其 中 激 
a MHz, 





(7.15) 
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7.7 局 限 性 与 改进 





7.7.1 时 差 测 距 的 挑战 


时 差 测 距 技 术 具 有 很 多 优势 ， 并 且 满 足 了 很 多 市 场 需求 ,但 是 这 个 系统 还 是 需要 克服 很 
多 挑战 。 出 于 实际 考虑 ,我们 在 图 7.6 中 对 这 些 参数 进行 了 简短 的 综述 ， 图 中 展现 出 TOF 
WR” 
为 了 实现 高 精度 ， 需 要 在 时 差 测 距 系 统 中 检测 精度 
到 极 小 的 时 移 。 由 于 光波 传播 速度 为 3 x 10° m/s, BLE FUGUE 
则 每 隔 15cm 的 距离 将 对 应 Ins 的 往返 时 间 。 因 此 ， 
为 了 实现 毫米 深度 分 辨 率 的 测量 ， 我 们 需要 能 够 区 
分 调制 光波 所 用 ps 的 飞行 时 间 。 分 办 率 
因为 相机 的 功率 预算 有 限 ， 为 了 能 用 现 有 光 观 
察 到 尽 可 能 远 ， 相 机 传 感 锅 的 敏感 性 同样 也 是 非常 
重要 的 。 此 外 ， 现 场 的 背景 光 光 强度 需要 达到 若干 MAWE 
数量 级 ， 并 且 劳 边 有 来 自 相 机 光源 的 调制 光 。 在 这 串扰 
种 情况 下 ， 必 须 避 人 免 额外 的 噪声 和 /或 饱和 度 以 防 图 7.6 飞行 时 间 法 参数 “ 蜂 蛛 网 ” 
造成 信息 的 丢失 。 除 了 面 对 这 些 挑 战 ， 摄 像 系统 的 
动态 范围 需要 进行 优化 ， 这 样 所 有 的 物体 ， 无 论 距离 是 近 或 远 都 可 以 进行 测量 。 
同时 ， 非 常 重要 的 一 点 是 避免 双方 间 的 串扰 ， 必 须 考 虑 到 像素 间 和 相机 间 的 串扰 。 前 者 
是 由 检测 到 的 迁移 到 相 邻 像素 红外 光子 引发 的 ， 后 者 是 受到 了 光 信 号 在 使 用 一 个 以 上 的 相机 
时 产生 的 干扰 ， 从 而 照 亮 了 同一 个 场景 。 
男 一 个 挑战 是 优化 距离 范围 。 正 如 前 面 简单 讨论 过 的 ， 因 为 发 射 调制 信号 而 发 生 混 瑟 现 
会 带 来 限制 。 我 们 一 定 要 确保 循环 的 相位 作为 27 的 倍数 。 
最 后 同样 重要 的 一 点 是 ， 在 解决 上 述 提 到 的 所 有 问题 中 ， 我 们 必须 确保 仍然 能 够 获得 小 
像素 来 构建 高 分 辨 率 的 3D 像素 阵列 ， 从 而 可 能 获得 细致 的 3D 图 像 。 
光学 设计 同样 也 对 时 差 测 距 系统 有 影响 ,其 中 有 很 多 重要 参数 ， 比 如 视 场 (FOV) 和 
镜头 特性 (F #, RA, GSE). 
ERAP, EE Tn is ET MAE PIP PRR, HOUR RTT, MOR AY) 
设计 、 控 制 逻辑 和 应 用 程序 ( 见 图 7.7)。 


7.7.2 理论 局 限 


时 差 测 距 系 统 的 局 限 可 归 因 于 多 样 化 的 部 件 ( 例 如， 在 LIED 中 可 用 的 速度 和 强度 的 局 
限 ) 。 但 是 在 本 节 中 ， 我 们 要 找 出 系统 可 实现 的 理论 最 大 精度 。 在 硅 成 像 的 各 个 噪声 源 中 ， 光 
子 散射 噪声 是 不 可 避免 的 。 这 种 噪声 是 由 离散 电荷 载 流 子 的 统计 学 波动 造成 的 ， 并 且 被 准确 地 
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器 件 设计 T 电路 设计 





TOF 图 像 感应 器 摄像 机 
图 7.7 时 差 测 距 系 统 的 示意 图 
建 模 成 泊 松 过 程 (Poisson process), KIE, WRF eli pene SONIC Bt TAE 0 的 平方 根 : 
Qno = VQ (7. 16) 
该 噪声 源 是 设计 时 差 测 距 系统 的 关键 ， 我 们 的 目标 一 直 是 使 图 像 电路 和 相机 产生 的 噪声 
降低 或 等 于 散射 噪声 ， 从 而 使 系统 的 整体 噪声 性 能 至 少 达到 70% 的 理论 最 大 值 。 


7.7.3 PARS 


在 持续 飞行 时 间 法 范围 内 ， 飞 行 时 间 被 转化 成 一 个 相位 差 。 因 此 ， 一 个 物体 在 相对 略 多 
于 一 个 周期 相位 延迟 的 距离 将 被 测量 ,结果 发 现 定位 会 更 近 。 这 个 范围 由 波长 的 一 半 定 义 ， 
称 为 “不 模糊 范围 ”或 者 “ 混 生 限制” (aliasing limit) 。 我 们 可 以 用 很 多 方法 来 解决 和 改进 
这 种 与 模糊 问题 有 关 的 持续 飞行 时 间 法 。 下 面 将 在 本 节 讨 论 这 些 方 法 。 

能 够 改进 不 模糊 范围 的 第 一 个 方法 是 使 用 稍 有 差异 的 调制 频率 进行 两 次 测量 。 结 合 两 次 
测量 ， 这 个 不 模糊 距离 成 为 每 个 频率 所 定义 的 最 大 距离 时 间 间 隔 的 最 小 公 倍数。 该 结果 能 够 
运用 数学 方法 获得 : 
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KAN VA ETE ZAR tl BY To PE AE RS ed TIS, FETS TUE, ARKE 
的 字 作 为 调制 基础 。 如 果 选 中 的 字 有 自 相 关 ， 如 图 7. 8 所 示 ， 第 一 个 移 位 为 非 零 ， 其 他 的 为 
零 ， 不 模糊 距离 即 明确 的 间距 被 扩展 然后 乘 以 字 的 位 长 度 。 
这 个 方法 的 缺点 就 是 高 频带 宽度 是 必需 的 要 素 。 伪 噪声 代码 可 能 存储 在 只 读 存 储 吉 中， 
其 至 通过 使 用 线性 移 位 反馈 寄存 器 生成 。 这 些 都 是 从 标准 的 数字 单元 中 建立 的 ， 像 逆 变 器 和 
触发 需 ， 使 得 代码 非常 适合 用 芯片 或 可 编程 逻辑 电路 生成 。 
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自 相 关 m 序 论 -理论 自 相 关 m 序 论 - 测 量 
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图 7.8” 选 定 的 伪 噪 声 序列 的 自动 校正 图 。 模拟 (Ze), 测量 ( 右 ) 
7.7.4 多 径 与 散射 


时 差 测 距 成 像 方 法 的 男 一 个 副作用 是 多 径 和 散射 效应 。 

多 径 效 应 是 由 多 元 的 、 直 接 和 间接 返回 的 多 条 路 径 引 发 的 ， 其 中 一 束 光 能 够 在 它 进入 测 
距 相机 的 光学 系统 之 前 跟随 这 些 路 径 。 传 感 咒 的 输出 是 不 同 路 径 距离 的 加 权 平 均 及 其 强度 。 

散射 具有 类 似 的 效应 ， 不 过 在 镜头 内 规模 较 小 。 由 于 传 感 融 表面 的 吸收 性 并 非 100% , 
光线 将 会 进行 表面 弹跳 ， 然 后 部 分 反射 在 镜头 上 ， 并 且 可 能 重新 进入 一 个 不 同 像素 位 置 上 的 
传感器 阵列 。 

这 两 种 效果 都 将 导致 测 距 出 现 误差 ， 特 别 是 对 于 接收 到 来 自 现场 的 较 弱 的 返回 信号 的 像 
素 而 言 。 在 本 章 写作 的 过 程 中 ， 各 研究 中 心 正 着 力 研究 解决 方案 来 补偿 或 消除 这 些 效应 。 


7.7.5 功率 分 配 与 优化 


3D 成 像 应 用 程序 中 的 主要 部 分 是 舰 入 式 或 电池 供电 的 各 个 装置 ， 这 常常 要 求 电源 能 
实现 最 优 分 配 ， 实 现 各 部 件 耗 电 最 小 化 。 在 时 差 测 距 系 统 中 ， 功 率 主要 是 由 负责 在 一 定 条 件 
下 的 深度 测量 质量 的 照明 单元 所 消耗 的 。 对 所 需 照 明 功 率 有 作用 的 主要 参数 是 调制 频率 和 调 
制 对 比 度 。 因 此 ， 我 们 定义 了 一 个 特定 的 度量 单位 ， 称 之 为 调制 效率 (ME) 。 如 式 (7. 18) 
所 示 ， 它 被 定义 为 这 个 频率 下 的 调制 频率 和 解 调 对 比 度 的 乘积 。 

Modulation Efficiency( ME) = 所 X Cdemod (7. 18) 

该 度量 数值 受 系统 设计 的 各 个 方面 影响 ， 比 如 照明 光源 的 明暗 和 调制 信号 的 质量 ， 作 为 
时 差 测 距 传 感 咒 的 本 机 属性 。 图 7. 9 所 示 为 不 同 ME 值 对 应 的 一 个 长 范围 时 差 测 距 系统 的 功 
耗 图 。 像 素 间 距 被 假定 为 10um， 且 其 他 参数 保持 恒定 。 

图 7.9 中 的 曲线 分 别 代表 2cem、lcm 和 5mm 的 噪声 目标 。 噪 声 越 低 ， 能 够 检测 到 的 移 
动 就 越 精确 。 从 图 中 可 以 看 出 时 差 测 距 系统 的 功 耗 在 很 大 程度 上 取决 于 调制 效率 。 在 今天 的 
系统 中 ， 大 约 70 ~ 100 的 值 都 是 可 以 实现 的 (取决 于 供应 商 ) ,要求 4 ~20W 功率 量 ， 与 检 
测 的 手 或 手指 的 水 平移 动 所 需要 达到 的 精度 有 关 。 这 个 参数 的 不 断 改 进 使 得 总 功 耗 低 于 
1W。 因 此 ， 在 未 来 ,时 差 测 距 系统 将 具有 足够 低 的 功 耗 ， 成 为 日 常生 活 所 用 的 各 种 电池 供 
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电 设备 的 一 部 分 ， 比 如 笔记 本 电脑 、 平 板 电脑 或 者 移动 设备 等 。 
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图 7.9 功 耗 与 三 种 不 同 的 噪声 目标 (2cm, lem, 5mm) 的 调制 效率 。 系 统 配置 参数 : 距离 为 4m， 时 
差 测 距 传感器 的 分 辨 率 为 VGA， 像 素 间距 为 10km，FOV =70° x 50° (HxV), FHRS 1, 反射 率 为 50% 
































7.8 ”飞行 时 间 法 摄像 组 件 


在 飞行 时 间 法 摄像 系统 有 许多 不 同 的 组 件 需 要 非常 协调 的 运作 ， 比 如 数字 、 模 拟 和 
光学 。 

光学 元 件 决定 了 对 于 正常 成 像 拥 有 的 相同 属性 ， 比 如 捕获 光 的 分 配 和 视野 。 由 于 飞行 时 
间 法 成 像 需 通常 比 传统 的 成 像 传感器 的 像素 数 低 得 多 ( 如 10k 像素 )， 光 学 要 求 也 在 一 定 程 
度 上 较 低 。 但 是 为 了 降低 光照 所 需 的 光学 功率 , “快速 ” 低 值 的 F# 和 柔性 焦距 透镜 组 是 理想 
的 。 同 时 必须 要 优化 照明 以 发 射 高 达 几 百 焰 赫兹 的 高 频率 波 。 此 外 ， 光 照 角度 需要 与 成 像 器 
的 视野 相 匹 配 。 

摄像 的 核心 就 是 时 差 测 距 成 像 的 传感器 发 片 ， 它 能 够 使 景象 中 调制 光 的 反射 聚焦 并 转化 为 
深度 信息 。 成 像 器 输出 被 数字 化 并 通过 使 用 通信 协议 (例如 USB) 而 最 终 发 送 到 外 部 世界 。 

此 外 ， 还 需要 一 些 数字 逻辑 把 所 需 的 混合 器 和 调制 信号 发 送 到 飞行 时 间 法 成 像 器 汶 片 和 
照明 板 。 


7.9 标准 值 


在 本 节 中 ， 我 们 将 呈现 一 些 持 续 飞 行 时 间 法 3D 成 像 系 统 内 关键 参数 的 标准 值 ， 比 如 光 
R Te 
7.9.1 光 的 功率 范围 

本 节 我 们 将 计算 一 些 影响 每 个 像素 的 光 功 率 分 配 的 标准 值 。 如 图 7. 10 所 示 ， 如 果 我 们 
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假定 场景 中 物体 有 朗 伯 反射 ,反射 强度 与 cos6 成 正比 。 通 过 计算 直径 为 万 的 球 冠 的 余弦 加 
权 积 分 〔〈 即 进入 镜头 时 光学 功率 的 份额 ) 与 整个 半球 的 余弦 加 权 积 分 的 比值 ， 我 们 就 能 得 
出 接触 镜头 的 光学 功率 [| : 


2m fO. 
Í Í sinOcosédéda 
Piens =P 2 





; DY 
sent Am rT = Ps ( sind, ) = Pees (2) (7. 19) 
| | singcos0d0da 


BIE Beh at 




















图 7.10 ” 朗 伯 反射 原理 ， 其 中 反射 强度 与 反射 角度 之 间 呈 余弦 关系 。 大 多 数 日 常生 
活 物 体 都 有 一 个 由 郎 伯 反 射 支配 的 表面 '” 


























然后 我 们 可 以 计算 入 射 到 每 一 个 像素 上 的 光 功 率 ; 
Pret = Se * Prot (7. 20) 

RIF, Sy 是 表面 反射 率 ; wu 是 填充 因数 (通常 为 0.7) 与 镜头 和 滤 光 器 效率 (通常 为 
0.9) 的 乘积 。 入 射 到 像素 的 光 功 率 因此 取决 于 到 物体 的 距离 R 和 镜头 光圈 D. 

作为 一 个 典型 的 例子 ， 我 们 可 以 考虑 一 下 发 射 光 的 光 功 率 为 300mW 和 镜头 光圈 为 2mm 
的 情形 。 如 果 我 们 进一步 考虑 一 个 标准 的 0.3A/W 的 传感器 响应 率 、 一 个 70% 的 填充 因数 、 
一 个 50% 的 标准 反射 率 和 10k 的 像素 数 ， 我 们 就 可 以 像 表 7. 1 所 示 那 样 计算 出 不 同 距 离 的 
由 检测 器 导致 的 电流 值 。 当 使 用 这 个 配置 的 时 候 ， 对 于 100% 反射 在 0. Sm 的 最 大 可 能 电流 
值 为 23pA。 这 个 值 定义 了 这 个 系统 所 需 的 动态 范围 上 限 。 

表 7.1 光学 功率 预算 与 检测 器 电流 的 标准 值 














距离 /m Ps/nW Pyxa/ PW Ta/ pA 
0.5 1200 38 11 
1 300 9.5 2.8 
25 48 1.5 0. 45 
3 12 0. 38 0. 11 
10 3 0. 095 0. 028 


20 0.75 0. 024 0. 0071 
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7.9.2 背景 光 


使 用 锁定 原理 ， 我 们 可 以 区 别 在 场景 中 呈现 的 背景 光 与 调制 光 。 然 而 ， 因 为 所 有 光 都 与 
检测 囊 接 触 ， 所 以 诱发 的 散射 噪声 水 平 是 由 调制 光 和 背景 光 共 同 引起 的 。 因 此 ， 相 机 在 强 的 
环境 光 下 总 是 要 么 需要 更 多 功率 ， 要 么 表现 出 更 差 的 性 能 。 

能 够 降低 入 射 到 检测 器 上 的 光 功 率 的 一 个 简单 方法 是 通过 使 用 一 个 光学 过 滤器 ， 以 便 来 
选择 所 使 用 的 波长 (在 某 一 个 光谱 带宽 范围 内 ) 并 且 减 弱 其 他 所 有 波长 的 光 。 使 用 这 样 的 
过 滤器 ， 背 景 光 通 常 可 以 衰减 20 信 。 

图 7. 11 展示 了 太阳 的 光谱 。 我 们 可 以 看 到 在 930nm 周围 ， 由 于 大 气 吸收 效应 使 光谱 显 
示 出 了 一 个 局 部 最 小 值 。 因 此 ， 这 将 是 一 个 在 飞行 时 间 法 3D 摄像 机 中 所 使 用 光源 的 一 个 不 
错 的 波长 。 
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图 7. 11 大 气 内 部 和 大 气 外 部 太阳 能 光谱 O°! | RW: 来 自 Nick84 [CC - BY -SA - 
3.0 (http; //creativecommons. org/licenses/by - sa/3.0)], ， 维 基 共 享 资源 


通过 美国 材料 试验 学 会 (ASTM E 490, AMO) 公布 的 结果 0] ， 我 们 发 现 对 于 250 ~ 
1100nm 区 域 的 太阳 光 功 率 密度 的 最 大 值 是 1006.9W/m?。 表 7.2 已 经 显示 了 在 不 同 条 件 下 
的 光 功 率 密度 。 通 过 使 用 一 项 纽 波 特 OPM840 光学 功率 测量 单元 可 以 获得 室内 和 多 云 室外 
值 。 同 样 的 ， 我 们 注意 到 一 个 标准 的 硅 检测 器 中 的 检测 器 电流 ， 参 数 包括 0. 3A/W 响应 率 、 
70% 填 充 因 数 和 30pm x30pm 的 面积 ， 同 时 与 标准 值 数量 为 28 的 镜头 连接 。 并 且 ， 我 们 假定 
场景 反射 达到 最 大 值 (100% ) 。 为 了 获得 这 些 值 ， 我 们 重新 改进 式 (7.19) M (7.20) 
WF: 














PDpr 1 下 
Piza = 2M; Á pixel G Ta) SR “ Viotal (7. 21) 


SUP, PDg 是 背景 光 的 功率 密度 ， 并 且 被 2 整除 ， 因 为 DC 光 以 标准 的 TOF 像素 传播 到 不 同 
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的 微分 检测 融 节 点 。j/# 是 镜头 使 用 的 数量 ，4 ia 是 像素 面积 ，M1i 是 光学 过 滤器 的 衰减 系 
数 ， 使 用 标准 值 20。 还 要 注意 一 点 ， 这 个 公式 是 距离 无 关 的 。 表 7.2 给 出 了 背景 光 诱导 的 
标准 电流 值 。 如 表 7. 1 所 示 ， 通 过 把 它们 和 由 调制 光 反 射 获得 的 值 进 行 对 比 ， 我 们 可 以 看 到 
诱导 的 背景 光电 流 值 几 乎 高 达 调 制 光 的 5 个 数量 级 。 
表 7.2 不 同 背景 光 场 景 中 的 光学 功率 密度 (有 与 没有 光学 过 滤器 ) ， 以 及 标准 硅 
检测 器 和 镜头 设置 的 相应 检测 器 电流 





PDp1/ (W/m?) PDp, (EYE) /( W/m?) Ia (过 滤 )/pA 
室内 3 0. 15 0.8 
室外 (HR) 30 1.5 8 
室外 (晴天 ) 1006.9 50.3 270 


7.10 ”技术 发 展 最 新 水 平 


飞行 时 间 法 技术 受到 学 术 界 和 行业 研究 实验 室 的 广泛 研究 ， 因 此 在 该 领域 涌现 了 大 量 的 
科学 著作 和 许多 可 用 的 科研 产品 。 本 书 我 们 将 阐述 现 有 的 像素 计数 的 方案 和 对 未 来 的 展望 。 
从 研究 和 发 展 的 角度 来 看 ， 视 频 图 形 阵列 (VGA ) 分 辩 率 在 今天 已 不 稀奇 ， 一 个 图 像 
传感器 已 经 能 有 高 达 300k TOF 像素 了 。 如 图 7. 12 所 示 ， 研 究 报告 显示 ，TOF 传感器 分 辨 率 
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到 7.12 时差 测 距 成 像 传感器 分 辩 率 的 综述 和 趋势 (来 源 : 参考 文献 [11])。 上 图 显示 
了 科学 文献 中 的 结论 ， 而 下 图 显示 出 可 利用 的 各 类 产品 的 分 辨 率 。 从 测量 最 小 的 可 检测 到 的 
特征 尺寸 推断 出 的 Kinect 分 辨 率 ， 注 意 到 这 比特 定 的 视频 图 形 阵 列 的 分 辨 率 还 要 低 得 多 
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一 直 保 持 着 每 4 年 翻 4 倍 的 增长 速度 。 顺 应 这 一 趋势 ，2016 年 之 前 720p 的 分 辩 率 将 在 科研 
人 员 的 努力 下 实现 。 与 该 发 展 势头 相似 ， 新 技术 在 市 场 中 的 应 用 将 在 研究 结果 更 新 后 的 4 年 
内 涌现 。 现 有 的 产品 已 经 在 提供 QVGA 分 辨 率 ， 而 未 来 将 会 被 改进 得 更 加 完美 。 





























7. 11 结语 





本 章 对 飞行 时 间 法 3D 成 像 技术 的 基本 原理 进行 了 综述 。 对 于 持续 飞行 时 间 法 的 设备 ， 
我 们 已 经 得 出 了 很 多 重要 的 公式 和 标准 的 系统 参数 。 我 们 证 明了 飞行 时 间 法 3D 成 像 系统 中 
最 重要 的 参数 是 能 够 使 系统 节省 功率 并 达到 高 可 重复 性 和 高 精度 的 调制 效率 。 

随后 ， 我 们 综述 了 这 一 技术 所 需要 面临 的 挑战 和 问题 ， 并 且 讨 论 了 它 的 解决 办 法 。 最 
终 ， 我 们 展现 了 最 新 发 展 成 果 及 相关 产品 的 科学 界 和 产业 界 的 发 展 趋势 。 

总 的 来 说 ， 时 差 测 距 3D 成 像 技 术 在 实时 操作 和 分 辩 率 方面 有 许多 的 优势 。 我 们 相信 ， 
时 差 测 距 系统 将 会 渗透 需要 3D 成 像 性 能 的 许多 部 分 ， 并 且 在 广泛 的 应 用 范围 中 促进 与 用 户 
的 实时 交互 。 
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8.1 引言 和 研究 动机 


我 们 与 计算 机 设备 的 交互 稳步 增加 。 因 此 , 在 HCI (人 机 交互 ) 领域 的 研究 一 直 在 寻 
求 更 有 效 、 更 直观 、 更 简易 的 交互 方法 。 “更 有 效 ” 意 味 着 我 们 可 以 尽 可 能 快速 地 进行 交 
互 。 我 们 也 尽量 避免 电脑 教程 讲座 或 操作 培训 。 这 意味 着 我 们 喜欢 更 直观 的 界面 。 最 后 ， 我 
们 不 喜欢 做 体力 或 脑力 费力 的 事情 ， 而 是 希望 与 设备 的 交互 轻松 容易 。 

传统 的 交互 设备 ， 如 鼠标 和 键盘 ， 如 果 使 用 过 多 可 能 会 导致 身体 损伤 ， 如 胸 管 综合 征 。 
键盘 和 鼠标 在 移动 的 环境 中 使 用 也 不 太 实际 。 因 此 ， 我 们 总 是 寻找 它们 的 替代 品 ， 甚 至 比 它 
们 更 好 的 东西 。 使 用 我 们 的 凝视 来 完成 与 计算 机 交互 似乎 是 一 个 很 有 前 途 的 想法 。 视 线 移动 
是 快速 的 ， 我 们 可 以 很 轻松 直观 地 移动 ， 因 此 凝视 跟踪 满足 上 述 所 有 标准 。 

此 外 ， 如 果 大 批量 生产 ， 眼 动 仪 的 成 本 很 低 。 一 个 小 型 的 眼 动 仪 由 一 个 摄像 头 、 一 
LED 、 一 个 处 理 器 和 软件 组 成 。 在 智能 设备 ， 如 智能 手机 、 平 板 电脑 、 笔 记 本 电脑 ， 甚 至 一 
些 新 的 电视 机 上 ， 所 有 这 些 组 件 都 已 经 存在 ， 但 即使 单独 生产 ， 这 些 组件 的 成 本 也 比 制造 光 
电 鼠 标的 成 本 要 低 。 先 进 的 眼 动 仪 为 了 视图 更 立体 而 使 用 两 个 摄像 头 ， 有 时 配 有 多 个 LED, 
尽管 如 此 ， 其 成 本 依旧 ， 尤 其 大 批量 生产 的 话 是 可 以 负担 的 。 

认为 凝视 跟踪 技术 将 成 为 未 来 交互 科技 的 更 进一步 的 原因 是 ， 人 与 人 之 间 的 交互 中 ， 族 

是 很 重要 的 。 

与 动物 眼睛 相 比 〈 见 图 8.1) ， 人 类 眼睛 的 眼 白 非 常 明显 。 动 物 的 眼睛 ， 特 别 是 与 人 类 
眼睛 运作 方式 相似 的 哺乳 动物 的 眼睛 里 ， 却 并 未 见 到 眼 白 ， 由 于 这 个 原因 ， 确 定 动物 凝视 的 
方向 比 人 类 要 难 。 认 识 到 凝视 的 方向 在 我 们 物种 进化 过 程 中 起 了 什么 作用 还 不 确定 。 可 以 确 
定 的 是 我 们 用 眼睛 来 交流 。 通 常情 况 下 ， 我 们 用 凝视 来 定位 人 物 或 者 物体 。 如 果 有 人 问 别 
人 :“ 我 可 以 拿 这 个 吗 ?” 别 人 能 看 到 这 个 人 在 看 什么 ， 因 此 知道 “这 个 ” 指 的 是 什么 。 如 
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果 我 们 想 要 人 机 交互 达到 近似 人 与 人 之 间 的 交互 ， 计 算 机 需要 具备 凝视 的 自觉 性 。 
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图 8.1 黑猩猩 的 眼睛 和 人 类 的 眼睛 








眼球 凝视 交互 带 来 了 进一步 的 优势 。 它 没有 物理 接触 ， 因 此 是 一 个 非常 卫生 的 交互 方 
式 。 没 有 碰 触 ， 设 备 也 不 需要 清洗 。 眼 动 仪 上 没有 活动 件 ， 这 意味 着 它 不 需要 维护 。 如 果 组 
装 上 一 个 变焦 镜头 ， 那 么 眼 动 仪 的 工作 距离 就 会 比 我 们 的 手臂 要 长 ， 可 以 作为 遥控 需 使 用 。 

此 外 ， 眼 动 仪 能 让 我 们 的 电脑 交互 更 安全 ， 因 为 它们 明确 要 求 我 们 集中 注意 力 。 需 要 视 
线 接触 才能 拨 出 的 移动 电话 不 会 因为 装 在 口袋 里 意外 按键 就 拨 出 电话 。 最 后 ， 眼 动 仪 可 以 通 
过 检测 我 们 的 活动 ， 有 潜力 让 我 们 的 交互 更 方便 。 例 如 ， 当 我 们 阅读 时 ， 系 统 可 以 将 非 紧急 
通知 推迟 ， 例 如 软件 更 新 的 通知 。 

本 章 将 继续 介绍 人 类 眼睛 的 基本 知识 和 概述 凝视 跟踪 技术 。 下 一 节 将 阐述 凝视 交互 遇 到 
的 反对 和 障碍 ， 其 次 是 对 在 过 去 30 年 凝视 跟踪 技术 研究 的 一 个 简短 的 总 结 。 接 下 来 的 三 节 
介绍 研究 凝视 交互 的 三 种 方式 。 

第 一 种 也 是 最 明显 的 方式 是 关注 眼睛 的 指向 。 这 类 似 于 鼠标 的 指向 ， 但 精度 不 高 。 有 眼睛 
指向 部 分 包括 鼠标 和 了 眼睛 指向 的 比较 ， 并 将 讨论 手 和 眼睛 的 协作 。 

第 二 种 是 使 用 凝视 姿势 。 凝 视 姿势 不 是 很 直观 ,但 姿势 属于 标准 的 交互 方式 库 。 除 了 姿 
势 识 别 和 姿势 字母 表 外 ， 这 一 节 也 讲解 凝视 姿势 和 自然 眼球 运动 的 区 别 。 

第 三 种 是 把 眼睛 的 凝视 作为 情景 信息 。 在 这 里 ， 眼 睛 的 动作 不 会 触发 有 目的 的 指令 ， 但 
是 系统 会 观察 和 分 析 眼 睛 动作 ， 从 而 以 聪明 的 方法 帮助 和 支持 用 户 。 这 一 节 大 致 讲解 活动 识 
别 ， 特 别 是 阅读 和 注意 力 检测 。 本 音 最 后 展望 凝视 交互 技术 进一步 发 展 的 前 景 。 
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8.2 眼睛 








在 医学 、 生 物 学 、 神 经 科学 和 心理 学 等 领域 ,关于 眼睛 的 知识 无 穷 无 尽 。 这 里 展现 的 眼 
睛 的 知识 是 经 过 简化 ， 仅 阐述 服务 理解 本 章 所 需 的 必要 的 事实 。 
从 技术 的 角度 来 看 ， 眼 睛 可 以 看 作 是 一 对 同步 运动 的 动态 稳定 相机 。 每 个 眼球 有 三 对 持 


抗 肌 ( 见 图 8.2)， 它 们 可 以 对 头 部 三 个 自由 度 起 到 补充 水 平 向 、 垂 直 向 和 围绕 视线 旋转 方 
向 的 作用 。 

















4 8.2 三 对 持 抗 肌 可 以 补偿 头 部 的 所 有 动作 











图 8. 3 是 有 眼睛 的 简化 示意 图 。 有 眼睛 和 相机 类 似 ， 虹 膜 就 像 是 光圈 ， 视 网 膜 像 是 光敏 面 ， 
晶状体 就 像 是 镜头 。 与 相机 相 比 ， 眼 睛 通过 改变 晶状体 的 形状 来 聚焦 ， 而 不 是 改变 它 的 位 
置 。 相 机 和 眼睛 的 光敏 面 有 很 大 的 不 同 。 相 机 的 光敏 面 是 二 维 的 且 具 有 均匀 分 布 的 光 接 收 


器 ,通常 接收 红色 、 绿 色 和 蓝 色 的 光 。 眼 睛 的 光敏 面 是 圆 形 的 ， 光 接收 顺 不 均匀 分 布 。 除 了 








图 8.3 眼球 示意 图 
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接收 这 三 种 光 的 接收 器 ( 视 锥 细胞 ) ， 眼 睛 还 具有 另 一 种 接收 器 〈 视 杆 细胞 ) 不 对 光 色 区 
分 ， 但 光敏 度 更 高 。 视 杆 细胞 赋予 我 们 夜 视 能 力 。 视 网 膜 上 的 视 锥 细胞 密度 低 ， 除 了 在 与 瞳 
孔 相 对 的 小 点 上 密度 高 ， 我 们 称 这 个 小 点 为 中 央 凹 。 因 此 ， 我 们 只 能 在 狭窄 的 1 ~2° 的 范 
围 内 看 得 清楚 。 这 个 距离 相对 于 手臂 长 度 的 距离 而 言 是 非常 小 的 。 我 们 所 感觉 的 高 清晰 度 夯 
面 是 大 脑 产 生 的 幻觉 。 

在 小 范围 内 我 们 能 看 见 高 清晰 度 的 画面 ， 但 也 有 所 代价 ， 那 就 是 我 们 要 移动 眼球 。 我 们 
总 是 把 腿 睛 转 到 能 直接 用 中 央 四 看 到 物体 的 位 置 。 有 两 种 类 型 的 眼球 运动 来 实现 这 点 

。 一 种 眼球 运动 是 补偿 运动 。 当 我 们 视线 固定 于 某 物 ， 而 转动 头 的 方向 时 ， 这 种 运动 
就 会 发 生 。 图 像 传 输 的 稳定 性 是 必要 的 ， 因 为 我 们 需要 一 个 稳定 的 图 像 投影 到 中 央 上 四。 我们 
观看 一 个 移动 的 物体 时 ， 也 会 有 这 样 的 动态 平衡 。 保 持 图 像 稳定 的 运动 是 平滑 的 。 

© 另 一 种 类 型 的 眼球 运动 是 突然 快速 移动 ， 这 被 称 为 扫 视 。 通 常情 况 下 ， 有 眼睛 极 快 地 
运动 ， 视 线 落 到 感 兴趣 的 点 并 停留 一 段 时 间 ， 这 段 停留 被 称 为 定 睛 。 在 此 之 后 ， 有 眼睛 做 另 一 
个 扫 视 运动 ， 依 此 类 推 。 大 多 数 时 候 ， 我 们 的 眼睛 做 扫 视 运动 。 

当 眼 睛 运动 的 时 候 ， 其 位 置 不 会 变 ， 而 是 围绕 其 中 心 旋转 。 因 此 一 个 扫 视 的 长 度 由 扫 视 
开始 和 结束 时 瞳孔 正常 的 角度 定义 。 图 8.4 所 示 为 扫 视 的 时 间 与 视角 的 关系 。 很 清楚 地 看 
见 ， 扫 视 存在 最 小 时 间 ， 由 视角 决定 。 然 而 ， 对 于 大 视角 ， 时 间 增 加 幅度 很 小 。 视 角 大 于 
5° 的 扫 视 持续 时 间 约 为 100 ~ 150ms。 
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图 8.4 扫 视 时 间 和 视角 的 关系 


扫 视 运动 速度 可 高 达 每 秒 700"， 以 至 于 视网膜 上 的 光 接 收 器 没有 足够 的 时 间 来 检测 图 
像 ， 因 此 在 扫 视 期 间 我 们 处 于 失明 的 状态 。 因 此 ， 没 有 控制 反馈 回路 来 引导 有 眼睛 看 向 目标 。 
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心理 学 把 眼睛 的 扫 视 运动 叫 作 弹道 运动 。 这 意味 着 ， 扫 视 运 动 不 服 从 费 茨 定律 0 ， 即 使 一 
些 在 HCL (人 机 交互 ) 界 的 出 版 物 持 相反 态度 [2 -5] 。 与 服从 费 茨 定律 的 运动 不 同 ， 弹 道 运 
动 的 时 间 不 取决 于 目标 的 大 小 。 

Carpenter 在 1977 年 [中 测量 了 扫 视 的 旋转 幅度 和 持续 时 间 。 他 用 线性 近似 来 表达 扫 视 的 
时 间 7 和 其 幅度 4 的 关系 : 

T=2.2ms/° -A+21ms 

1989 4E, Abrams, Meyer 和 Kornblum”! 提出 了 一 个 模型 ， 即 肌 力 随时 间 增 加 而 持续 增 
强 。 由 于 眼睛 的 质量 和 形状 不 会 改变 ， 加 速度 a(t) 和 肌 力 成 正比 例 ， 也 不 断 随时 间 增 加 而 
增加 : 





a(t) =k- t, HP k WHR 
做 两 次 时 间 的 积分 并 求解 幅度 的 方程 式 ， 结 果 显 示 时 间 和 幅度 存在 一 个 立方 根 的 关系 。 
Tous A? 

常数 c PURT KA k FRIR AY EES 

见 图 8.4， 它 显示 正如 Carpenter 做 的 那样 ， 假设 数据 都 在 一 条 直线 上 面 ， 线 性 近似 在 某 
个 范围 内 是 合理 的 。 但 是 ,参考 文献 [7] 中 的 模型 ， 与 实验 数据 更 吻合 。 

眼 动 仪 测量 到 的 定 睛 时 间 范 围 通常 在 0 ~ 1000ms。 定 睛 时 间 一 般 不 会 超过 1000ms, 而 短 
的 定 睛 也 需要 仔细 分 辨 。 因 为 眼睛 和 大 脑 需要 一 些 时 间 来 进行 图 像 处 理 ， 因 此 定 睛 应 该 持续 
一 段 时 间 。 很 短 的 定 睛 是 毫 无 意义 的 或 者 是 扫 视 检测 算法 中 的 假象 。 


8.3 BRZDY 


有 眼 动 追踪 这 个 术语 没有 精确 的 定义 。 在 某 些 情况 下 ， 眼 动 追踪 表示 追踪 眼球 的 位 置 ， 而 
在 某 些 其 他 情况 下 ， 它 表示 检测 凝视 的 方向 。 也 有 人 把 眼睛 作为 一 个 整体 来 追踪 ， 包 括 眉 
毛 ， 并 尝试 由 此 检测 情绪 状态 ， 例 如 ， 参 考 文献 [8 ，9] 。 这 种 眼 动 追踪 是 分 析 面 部 表情 的 
一 部 分 。 在 本 书 中 ,术语 “ 眼 动 仪 ”是 对 凝视 方向 的 检测 ， 因 此 有 时 也 被 称 为 “凝视 追踪 










































































顺 ” 或 “视线 追踪 器 " 。 对 眼睛 位 置 的 追踪 是 视线 追踪 系统 的 一 个 子 任务 ， 它 人 允许 头 部 自由 
地 在 显示 屏 前 运动 。 


8.3.1 有 眼 动 仪 的 种 类 


有 三 种 不 同 的 方法 来 追踪 眼球 的 运动 。 

最 直接 的 方法 就 是 将 传感器 固定 在 眼球 上 。 把 小 杠杆 固定 在 眼球 上 就 属于 这 一 类 方法 ， 
但 是 我 们 并 不 推荐 ， 因 为 其 造成 伤害 的 风险 高 。 使 用 隐形 眼镜 一 种 是 把 传感器 放 和 眼睛 更 安 
全 的 方式 。 隐 形 眼 镜 中 的 集成 镜面 可 以 测量 反射 光 "%1 。 此 外 ， 隐 形 眼镜 中 的 集成 线圈 能 够 
检测 出 磁场 中 线圈 的 方向 。 连 接线 圈 与 测量 设备 的 细 线 对 实验 对 象 而 言 很 不 舒服 。 使 用 
这 种 方法 很 大 的 一 个 好 处 是 精准 度 高 ， 并 且 即 时 获得 近乎 无 限 的 高 分 辨 率 。 出 于 这 个 原因 ， 
医学 行业 和 心理 研究 都 使 用 此 方法 。 
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男 一 种 方法 是 眼 电 图 CEOG) ， 传 感 器 连接 到 有 眼睛 周围 的 皮肤 测量 电场 。 最 初 ， 传 感 顺 
被 认为 是 测量 眼睛 的 肌肉 电位 ， 后 来 发 现 有 眼睛 的 电场 是 一 个 电 偶 极 。 该 方法 对 电磁 干扰 很 敏 
感 ， 但 因 技术 先 进 成 熟 ， 效 果 不 错 。 同 时 该 方法 相关 知识 资料 充足 ， 工 业 标准 齐全 [21 。 这 
种 方法 的 最 大 优点 是 即便 在 闭 着 眼睛 睡觉 的 时 候 ， 它 都 能 检测 眼球 的 运动 。 现 代 便 件 技术 多 
许 把 传感器 集成 到 眼镜 上 打造 可 穿戴 的 EOG IRZ], 

目前 所 述 的 两 种 方法 有 点 突 元 并 且 不 适合 用 于 凝视 交互 。 第 三 种 方法 ， 也 是 对 于 凝视 交 
互 我 们 所 推崇 的 方法 ， 是 基于 视频 的 一 种 方法 。 此 方法 的 核心 部 分 是 用 一 个 视频 摄像 机 连接 
到 计算 机 进行 实时 图 像 处 理 。 图 像 处 理 接收 从 摄像 机 传送 的 图 像 ， 并 检测 瞳孔 来 计算 视线 的 
方向 。 视 频 眼 动 跟踪 的 方法 有 一 大 优势 ， 就 是 它 不 突 无 。 因 此 ， 它 是 构建 人 机 交互 视线 接口 
的 方法 。 基 于 视频 的 角膜 反射 方法 将 在 下 一 节 详 细 描述 。 

一 般 有 两 种 类 型 的 基于 视频 的 眼 动 仪 : 国定 眼 动 仪 和 移动 眼 动 仪 。 

固定 眼 动 仪 ， 如 图 8. 5 所 示 ， 显 示 凝 视 方 向 是 相对 于 用 户 的 空间 ， 通 常 显示 为 屏幕 坐 
标 。 简 单 的 固定 眼 动 仪 需要 眼睛 保持 稳定 ， 因 此 ， 使 用 者 需要 头 部 固定 。 除 了 眼睛 其 他 身体 
部 位 都 不 能 移动 的 残疾 人 可 以 使 用 这 样 的 系统 。 非 残疾 人 更 喜欢 能 在 显示 屏 前 自由 移动 的 系 
统 。 这 样 的 系统 通常 有 一 对 提供 立体 视图 的 摄像 机 ， 它 不 仅 追 踪 视线 方向 ， 还 能 追踪 头 部 的 
位 置 和 方向 。 固 定 眼 动 仪 是 一 个 独立 的 设备 ， 可 以 追踪 落 在 物体 上 的 视线 。 然 而 ， 因 为 许多 
眼 动 追踪 应 用 程序 都 是 在 显示 屏 前 运行 ， 有 些 眼 劲 仪 直接 集成 到 显示 器 上 ， 甚 至 有 可 能 不 会 
被 用 户 注意 到 。 












































































































































图 8.5 拓 比 公司 (Tobii) 的 固定 眼 动 仪 ， 一 个 独立 的 系统 和 一 个 集成 到 显示 器 
的 系统 。 来 源 : 拓 比 公司 (Tobii) 转载 许可 











移动 眼 动 仪 连接 到 用 户 的 头 部 。 这 种 类 型 的 眼 动 妃 踪 器 根据 头 部 的 朝向 来 确定 视线 的 方 
向 。 通 常 ， 移 动 眼 动 仪 配 有 一 个 头 戴 式 摄像 头 来 捕捉 用 户 所 看 到 的 画面 。 从 眼 动 追踪 器 的 数 
据 可 以 计算 出 用 户 正在 看 的 位 置 ， 并 且 能 在 头 戴 式 摄像 头 记录 的 图 像 上 标记 出 来 。 随 着 最 近 
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小 型 摄像 机 设计 的 发 展 ， 眼 动 仪 可 以 集成 到 眼镜 上 。 图 8.6 展示 了 一 副 眼 动 追踪 眼镜 。 

Vertegaal 等 人 还 介绍 了 另外 一 种 视频 眼 动 仪 ， 我 们 把 它 称 作 ECS 视线 接触 传感器 :1 。 
ECS 视线 接触 传感器 并 不 为 视线 方向 提供 坐标 ， 而 仅仅 是 为 视线 接触 提供 信号 ， 在 10m 之 
内 有 效 。xuuk 公司 的 Eyebox2 视线 接触 传感器 如 图 8.7 所 示 。 





Al8.6 SMI 公司 的 眼 动 追踪 眼镜 。 来 源 : 8.7 xuuk 公司 的 视线 接触 传感器 Eye- 
SMI Eye Tracking Glasses。 转 载 已 获 SensoMotoric box2, UR. xuuk 公司 。 转 载 已 获 许 可 








Instruments 公司 的 许可 
8.3.2 角膜 反射 法 


视频 眼 动 仪 的 一 般 任务 是 分 析 摄 像 头 记录 的 图 像 来 估计 视线 的 方向 。 

检测 虹膜 的 一 个 可 行 办 法 是 利用 眼 白 和 暗 虹膜 的 高 对 比 度 。 此 方法 的 结果 在 水 平方 向 上 
精准 ， 但 垂直 方向 不 精准 ， 因 为 虹膜 的 上 部 和 下 部 被 眼 蛤 遮盖 了 。 由 于 这 个 原因 ， 大 多 数 视 
频 眼 动 仪 取而代之 检测 瞳孔 。 摄 像 机 图 像 中 检测 瞳孔 是 图 像 识 别 的 一 种 任务 ， 即 边缘 检测 ， 
来 估计 瞳孔 的 椭圆 轮廓 i] 。 另 一 种 检测 瞳孔 的 算法 是 Starburst 算法 ， 将 在 参考 文献 【16 ] 
中 解释 。 

有 两 种 方法 来 检测 瞳孔 ， 分 别 检测 暗 瞳 孔 和 亮 瞳 孔 的 方法 。 暗 瞳 法 ,图像 处 理 时 在 摄像 
机 拍摄 的 图 像 中 定位 黑色 瞳孔 的 位 置 。 但 这 种 方法 不 适用 于 深 棕色 眼睛 ， 因 为 棕色 虹膜 和 黑 
色 瞳 孔 之 间 的 对 比 度 是 非常 低 的 。 亮 瞳 法 使 用 附加 的 照明 ， 使 用 与 摄像 机 同一 方向 的 红外 线 
的 光照 射 。 因 此 ， 红 外 LED 必须 安装 在 摄像 机 内 部 或 靠近 摄像 机 的 地 方 ， 这 就 对 设备 有 要 
求 。 视 网 膜 反 射 红 外 光 ， 这 使 得 在 摄像 机 图 像 中 的 瞳孔 呈 白 色 。 用 闪光 拍摄 人 脸 的 时 候 ， 这 
种 效果 就 被 称 为 “红眼 ”。 对 于 个 体 之 间 的 红外 亮 瞳 响应 的 差异 性 ， 见 参考 文献 【17] 。 

大 部 分 眼 动 仪 使 用 从 角膜 反射 的 图 像 ， 也 叫 第 一 Purkinje 图 像 ， 来 估计 的 视线 方向 。 由 
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于 角膜 是 一 个 完美 的 球形 ， 内 光 点 停留 在 同一 位 置 ， 视 线 方向 就 可 以 计算 出 来 了 ( 见 图 
8.9)。 

眼 动 仪 的 图 像 处 理 软件 检测 内 交点 的 位 置 和 瞳孔 的 中 心 。 闪 交点 到 瞳孔 中 心 的 矢量 是 计 
算 视线 方向 的 基础 ( 见 图 8.8)， 最 后 在 画面 上 确定 视线 的 位 置 。 直 接 计 算 不 仅 需 要 眼 动 仪 
的 空间 几何 形状 、 红 外 LED、 显 示 带 和 有 眼睛， 还 需要 知道 眼球 的 半径 ， 每 个 使 用 眼 动 仪 的 用 
户 眼球 半径 都 不 同 。 出 于 这 个 原因 ， 校 准 过 程 估计 闪光 点 和 瞳孔 的 矢量 在 屏幕 上 位 置 的 映射 
的 参数 。 校 准 程序 要 求 用 户 在 校准 过 程 中 看 多 个 校准 点 。 四 个 点 的 校准 程序 使 用 靠近 显示 屏 
四 角 的 校准 点 。 






































图 8.9 看 向 显示 屏 的 四 个 角落 一 一 反射 都 保持 在 同一 位 置 

















角膜 反射 法 不 适合 眼球 变形 的 人 。 当 人 们 戴 隐 形 眼 镜 的 时 候 也 会 有 问题 。 带 镜片 眼镜 问 
题 就 小 得 多 。 虽 然 腿 镜 可 能 改变 闪光 点 的 位 置 ， 但 是 反射 保持 在 相同 的 位 置 。 校 准 能 弥补 眼 
镜 的 光学 畸变 。 
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目前 为 止 ， 我们 所 阐述 的 角膜 反射 法 要 求 眼睛 保持 在 一 个 稳定 的 位 置 ， 这 意味 着 它 要 求 
使 用 者 头 部 固定 。 对 于 人 机 交互 ， 允 许 使 用 者 在 设备 前 自由 移动 更 加 理想 。 这 种 眼 动 仪 使 用 
立体 视图 ， 双 摄像 尖 ， 也 可 以 只 使 用 单个 摄像 头 配 置 多 个 内 光源 。 对 于 这 样 的 系统 如 何 工 
作 ， 请 参见 参考 文献 [18，20]。 然 而 ， 通 常 商 业 眼 动 仪 的 运行 方式 是 一 个 商业 秘密 。 

上 面 提 到 的 视线 接触 传感器 也 使 用 了 角膜 反射 法 。 对 于 照明 ， 一 组 红外 LED 被 安装 在 
红外 摄像 头 的 轴 周 于 。 当 摄像 机 提供 一 幅 闪光 点 在 瞳孔 内 的 图 像 时 ， 这 意味 着 测试 者 是 直接 
看 摄像 机 的 。 这 种 方法 的 一 个 很 大 的 优点 是 它 不 需要 校准 。 


8.4 反对 和 障碍 


在 引言 中 ， 效 视 交 互 看 上 去 似乎 很 有 前 途 。 然 而 ， 并 不 是 所 有 的 承诺 都 很 容易 实现 ， 实 
现 凝视 交互 的 过 程 中 有 一 些 障碍 。 


8.4.1 人 为 方面 


大 家 普遍 关注 的 是 ， 凝 视界 面 将 与 眼睛 的 首要 任务 视觉 相 冲 突 。 有 眼睛 可 能 会 有 一 个 输 
入 -输出 之 间 的 冲突 ， 视 觉 和 交互 需要 不 同 的 眼睛 运动 。Zhai 等 人 在 1999 年 中 写 道 : “第 二 
点 ， 也 许 也 是 更 重要 的 一 点 ， 我 们 的 眼睛 ， 作 为 我 们 的 主要 感知 设备 之 一 ， 还 没有 进化 成 为 一 
个 控制 器 官 。 有 时 它 的 动作 是 主动 控制 的 ， 而 在 其 他 时 候 它 是 由 外 部 刺激 所 驱动 的 。” P 

视野 中 的 变化 可 能 引发 眼球 运动 。 如 果 一 个 凝视 感知 界面 显示 了 一 个 闪烁 的 物体 ， 眼 球 
则 很 有 可 能 转向 闪烁 的 物体 。 如 果 眼 球 运动 触发 了 一 个 新 的 命令 ， 用 户 将 会 无 意 地 调用 这 个 
命令 。 在 一 般 情况 下 ， 在 凝视 界面 创建 这 样 的 输入 输出 冲突 是 可 能 的 。 然 而 ， 凝 视界 面 的 开 
发 人 员 需 要 构建 这 样 的 冲突 。 通 常情 况 下 ， 这 样 的 冲突 不 会 发 生 ， 也 没有 科学 家 报告 这 种 类 
型 冲突 的 严重 问题 。 

也 有 反对 意见 称 我 们 不 能 控制 我 们 的 眼球 运动 。 尽 管 我 们 的 眼球 运动 是 由 视觉 任务 所 驱 
动 的 ， 我们 能 意识 到 自己 的 凝视 ,并且 可 以 控制 它 。 否 则 ， 我 们 就 违反 了 社交 协议 。 

反对 凝视 交互 的 男 一 个 观点 称 眼睛 可 能 会 疲劳 ， 如 重复 性 压力 损伤 等 问题 就 可 能 发 生 。 
然而 ,我们 的 眼睛 是 不 停 运动 的 ， 即 使 在 我 们 睡觉 的 时 候 也 是 如 此 。 如 果 一 个 人 的 眼睛 一 分 
钟 不 移动 ， 我 们 就 开始 担心 他 是 否 失去 了 知觉 。 因 此 ， 疲劳 对 眼睛 而 言 似乎 并 不 是 一 个 
问题 。 

最 后 ， 另 一 个 反对 眼 动 追踪 的 观点 是 接受 度 问题 。 摄 像 头 和 所 有 电子 设备 的 网 络 连接 将 
为 Orwel“ 老 大 哥 正在 看 着 你 呢 ” 的 设想 提供 基础 设施 。 眼 动 仪 带 有 摄像 头 我 们 可 能 会 习 
惯 ， 因 为 我 们 的 周边 早已 经 充满 了 其 他 的 摄像 头 。 然 而 ， 眼 动 仪 的 用 户 可 能 感觉 到 被 监视 
了 ， 并 且 他 们 也 许 不 会 接受 在 私人 空间 ， 如 浴室 中 使 用 眼 动 仪 。 对 眼睛 运动 的 分 析 似乎 可 以 
判断 我 们 的 阅读 能 力 ， 因 此 透露 我 们 的 智商 或 者 至 少 智商 的 形成 。 通 过 凝视 数据 得 出 的 结论 
可 以 吓 距 人 ,尤其 是 受 记者 。 
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8.4.2 室外 应 用 


固定 眼 动 仪 通常 运行 良好 且 可 靠 ， 因 为 它们 通常 位 于 室内 ， 光 照 条 件 相 对 稳定 。 在 室外 
环境 中 ， 光 的 变化 范围 很 广 ， 这 意味 着 可 能 有 极端 的 光线 反差 。 此 外 ， 光 线 还 可 能 快速 改 
变 ， 例 如 移动 的 阴影 ， 坐 在 汽车 内 尤其 如 此 。 这 样 的 情况 对 摄像 头 而 言 仍然 是 一 个 挑战 。 大 
部 分 商用 系统 都 是 以 红外 光 为 基础 ， 因 为 太阳 是 明亮 的 红外 辐射 源 ， 因 此 可 能 会 出 问题 。 这 
使 得 它 很 难 可 靠 地 在 摄像 机 图 像 中 检测 出 瞳孔 和 闪光 点 。 具 有 与 摄像 机 的 帧 速率 或 者 偏振 光 
的 使 用 同步 的 差分 图 像 和 红外 照明 的 方法 是 很 有 前 途 的 [2 1 。 因 此 ， 对 于 大 多 数 光 条 件 的 眼 
动 追踪 ,除了 极端 情况 ， 应 该 都 是 可 以 实现 的 。 


8.4.3 校准 


眼 动 仪 需要 进行 校准 以 达到 良好 的 精准 度 。 使 用 红外 LED 闪烁 的 方法 取决 于 眼球 的 半 
径 ， 因 此 ， 需 按 用 户 校 准 。 尽 管 眼 动 仪 能 够 在 无 闪光 点 的 时 候 确 定 瞳孔 在 空间 的 方向 ,不依 
赖 眼球 的 半径 ,但 是 仍然 需要 校准 。 其 原因 是 ,每 个 人 中 央 四 的 位 置 不 同 。 光 轴 (位 于 瞳 
孔 中 心 的 法 线 ) 并 不 完全 是 视 轴 〈 从 中 心目 到 有 瞳孔 中 心 的 一 条 线 ) 。 

校准 过 程 的 优点 是 它 仅 需要 做 一 次 。 配 备 了 眼 动 仪 的 个 人 系统 仅 需 要 校准 一 次 。 而 对 于 
精准 度 要 求 较 高 的 公共 系统 的 凝视 检测 ， 例 如 自动 柜员 机 ， 校 准 程序 是 一 个 真正 的 难题 。 

避免 校准 问题 的 一 种 方法 是 不 使 用 绝对 凝视 位 置 ， 而 仅仅 采用 相对 凝视 运动 。 只 检测 相 
对 运动 意味 着 使 用 手势 。 这 是 一 种 选择 ,但 它 也 是 一 个 严重 的 限制 。 

































































8.4.4 精度 
精度 包括 两 个 方面 :一 是 眼 动 仪 的 精度 ， 一 是 眼球 运动 的 精度 。 
可 用 的 眼 动 仪 的 精度 还 远 远 没 达 到 物理 极限 。 眼 动 仪 具 有 空间 和 时 间 分 辨 率 。 时 间 分 辨 





率 取决 于 摄像 头 和 处 理 器 的 速度 和 算法 。 对 于 固定 眼 动 仪 ， 空 间 分 辨 率 主 要 是 摄像 头 分 辨 率 
的 问题 。 由 于 摄像 头 的 分 辨 率 和 处 理 器 速度 会 不 断 增 加 ， 我 们 可 以 预期 ， 在 不 久 的 将 来 我 们 
的 眼 动 仪 会 有 更 高 的 精度 。 对 于 移动 眼 动 仪 系统 ， 空 间 精 度 还 依赖 于 头 戴 式 系统 的 机 械 稳 
定性 。 

时 下 的 眼 动 仪 一 般 声称 为 +0.5° 的 精度 。 辟 长 的 距离 是 从 显示 屏 到 眼睛 的 典型 距离 ， 该 
距离 下 眼 动 仪 的 精度 约 为 指甲 大 小 。 这 样 的 精度 是 不 够 用 眼睛 凝视 来 代替 鼠标 的 。 典 型 的 图 
形 用 户 界 面 使 用 的 交互 元 素 是 比 指甲 小 的 。 

我 们 眼睛 的 精度 是 一 个 微妙 的 问题 。 问 题 不 仅 是 我 们 如 何 准确 地 定位 我 们 的 视线 ， 而 且 
我 们 应 该 如 何 准确 地 做 。 即 使 我 们 的 视线 能 相当 准确 地 停留 ， 问 题 是 我 们 需要 集中 多 少 注意 
力 。 识 别 物体 的 时 候 ， 物 体 在 中 心 止 上 投影 就 足够 了 ， 因 此 ， 我 们 发 现在 这 个 精度 范围 内 眼 
睛 能 够 定位 自己 的 位 置 。 这 种 情况 似乎 与 在 晚上 用 火把 发 现 一 只 昆虫 是 相当 的 ， 如 果 昆 虫 是 
在 光圈 内 ， 那 么 这 个 精度 就 够 了 。 但 是 不 值得 这 人 么 努力 去 把 它 作为 中 心 。 

Ware 和 Mikaelian 是 这 么 说 的 : 
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“关于 眼球 正常 运动 的 研究 文献 告诉 我 们 ， 准 确 到 10' 角 可 视角 度 (相当 于 0.16°) 的 定 
睛 是 可 以 达成 的 ,但 不 受 控制 的 自发 运动 会 造成 眼睛 视线 间 欣 性 离开 目标 。 但 是 ， 当 观察 者 
连续 地 定 睛 多 个 日 标 ， 那么 眼睛 的 精度 会 大 大 减少 ， 大 幅度 的 错位 也 可 能 变 得 普遍 。”[” 


8.4.5 点 石 成 金 (Midas Touch) 问题 


虽然 凝视 指向 似乎 和 手指 指向 非常 相似 ， 但 是 它们 有 一 个 重要 的 区 别 : 我 们 不 能 像 举 起 
手指 一 样 举 起 我 们 的 目光 。 在 触摸 屏 上 ， 我 们 可 以 指向 一 个 交互 元 素 ， 并 通过 触摸 表面 触发 
该 指令 。 对 于 凝视 ， 我 们 也 可 以 指向 一 个 交互 元 素 ， 但 我 们 并 不 能 触摸 屏幕 。 如 果 我 们 仅仅 
是 看 着 就 能 触发 指令 ， 那 么 我 们 就 会 遇 到 一 个 大 问题 ， 即 就 算 我 们 仅仅 想 看 看 屏幕 上 有 什 
么 ,我们 都 将 触发 指令 。Jacob 称 这 为 点 石 成 金 问题 ， 他 解释 道 : 

“起 初 ， 它 非常 简单 ， 看 你 想 要 什么 ， 它 就 会 发 生 。 但 是 不 久之 后 ， 它 就 变 得 像 点 石 成 
金 那样 。 你 看 的 每 一 个 地 方 ， 都 有 一 个 指令 被 激活 ;你 看 的 所 有 地 方 都 会 触发 指令 。 ”231 

当 Jacob 发 现 点 石 成 金 的 问题 时 ,凝视 指向 就 出 现在 他 的 脑海 里 。 站 在 更 广泛 的 层面 上 
来 讲 ， 点 石 成 金 的 问题 是 决定 眼睛 的 活动 是 为 了 发 出 一 个 指令 ， 还 是 只 是 视觉 任务 中 的 一 部 
分 的 问题 。 即 使 改变 了 交互 方法 ， 问 题 依然 存在 。 雍 视 手势 也 存在 这 样 的 危险 ， 即 它们 在 上 自 
然 眼睛 运动 中 也 可 能 发 生 ， 并 触发 意外 的 指令 。 手 势 并 不 意味 着 触摸 ， 这 里 的 术语 点 石 成 金 
可 能 会 产生 误导 作用 。 因 此 ， 最 好 是 把 手势 从 自然 动作 分 离 出 来 阐述 。 
































8.5 凝视 交互 研究 











使 用 凝视 来 交互 的 想法 已 经 有 30 年 了 ， 自 那 时 起 就 已 经 有 了 大 量 的 研究 。 因 此 ， 下 面 
的 概述 是 这 一 领域 发 展 研 究 历史 中 的 一 小 段 。 

凝视 交互 之 所 以 成 为 可 能 ， 是 因为 有 电子 视频 摄像 头 和 足够 强大 能 够 进行 实时 图 像 处 理 
的 计算 机 。 第 一 批 系 统 是 在 20 世纪 70 年 代 建立 用 来 帮助 残疾 人 的 。 给 残疾 人 用 的 典型 的 应 
用 程序 就 是 眼睛 打字 !2] 。 眼 睛 打字 时 ， 显 示 屏 上 显示 标准 键盘 。 如 果 族 视 在 这 个 虚拟 键盘 
上 指向 了 一 个 键 ， 则 该 键 被 高 亮 显 示 。 如 果 凝 视 停 留 在 这 个 键 的 时 间 比 一 个 预定 的 停留 时 间 
更 长 ,通常 在 500ms 左右 ， 这 意味 着 该 键 被 按 下 了 。 

1981 年 Boltt””1 对 健全 的 人 使 用 的 多 模 态 凝视 交互 进行 了 预言 。 他 描述 了 配 有 巨大 显示 
器 的 媒体 室 ， 其 中 有 15 ~50 个 窗口 同时 显示 动态 的 内 容 ， 他 把 它 命名 为 “视窗 世界 ”。 他 
的 想法 是 将 一 些 用 户 正在 观看 的 窗口 进行 放大 。 基 于 停留 时 间 ， 他 描述 了 一 种 界面 方法 ， 还 
讨论 了 多 模 态 界面 技术 。 一 年 后 ，Bol 发 表 了 论文 《Eyes at the Interface》[2] ， 总 结 凝 视 在 
沟通 时 的 重要 性 ， 并 得 出 结论 : 界面 技术 需要 的 凝视 意识 。 他 的 构思 目前 尚未 完全 实现 。 

1987, Ware 和 Mikaelian 对 凝视 指向 2 进行 了 一 系统 研究 。 在 他 们 的 论文 《An evalua- 
tion of an eye tracker as a device for computer input》 中 ， 他 们 介绍 了 三 种 不 同 的 选择 方法 ， 他 
们 称 之 为 “停留 时 间 按 钮 ” “屏幕 按钮 ” “硬件 按钮 ”， 并 测量 了 眼睛 做 选择 时 需要 的 时 间 。 
对 于 停留 时 间 按 钮 ， 视 线 要 在 按钮 上 停留 一 定 的 时 间 (停留 时 间 ) 来 触发 与 按钮 相关 的 指 
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令 。 屏 幕 按钮 是 一 个 双 目 标的 任务 。 视 线 移动 到 所 选 的 按钮 ， 然 后 ， 移 动 到 屏幕 键 来 触发 指 
令 。 硬 件 按钮 的 方法 是 当 视 线 在 选 定 的 按钮 时 ， 使 用 手指 来 按 一 个 键 。 前 两 种 都 仅仅 是 凝 
视 ， 而 硬件 按钮 则 需要 使 用 一 个 额外 的 操作 模式 。Ware 和 Mikaelian 将 他 们 的 数据 代入 “ 改 
进 后 的 ” 费 茨 定律 ， 然 后 把 得 到 的 结果 与 Card SA 的 鼠标 装置 的 实验 结果 做 对 比 。 然 
而 ， 费 区 定律 并 不 适用 于 眼睛 。 

1990 年 ，JacobL231 系 统 地 研究 了 用 眼睛 操作 GUI (图 形 用 户 界面 ) 所 需要 的 交互 一 一 选 
择 对 象 、 移 动 对 象 、 滚 动 文本 、 触 发 菜单 命令 和 设置 键盘 焦点 落 到 同一 个 窗口 。 这 篇 论文 的 
一 大 贡献 是 (8.4 WAER) 发 现 了 点 石 成 金 问题 。Jacob 的 论文 的 普遍 性 导致 了 所 有 进 一 
步 的 研究 将 重点 放 在 眼睛 凝视 交互 的 单个 或 更 加 专业 的 问题 。 

1999 年 ，Zhai 等 人 提出 了 建议 来 处 理 凝 视 指向 固有 的 低 精 度 的 问题 (8.4 PARIE), 
并 把 它 命名 为 MAGIC (鼠标 和 凝视 输入 级 联 ) Fer"), MAGIC 指向 使 用 凝视 进行 粗糙 定 
位 和 用 传统 鼠标 进 精 准 定位 。 

2005 年 ，Vertegaal 等 人 引入 了 EyePliances 媒体 ， 其 中 远程 遥控 可 以 与 多 种 媒体 设备 交 
UAT 。 只 需要 用 眼睛 看 着 就 能 选择 想 要 远程 控制 的 设备 。 为 此 ， 他 们 给 设备 增加 了 一 个 简 
单 的 眼 动 仪 ， 称 为 视线 接触 传感器 ECS。 在 同年 的 另 一 篇 论文 中 [3 Vertegaal 等 人 在 与 移 
动 设备 组 合 的 过 程 中 使 用 了 ECS。 移 动 设备 一 直 不 受 充 分 关注 ， 因 为 使 用 移动 设备 的 用 户 必 
须 注 意 她 或 他 的 周转 环境。 他 们 用 两 个 应 用 程序 seeTXT 和 seeTV 展示 了 如 何 使 用 眼睛 凝视 来 
检测 注意 力 和 如 何 使 用 这 方面 的 文本 信息 来 控制 设备 。seeTV 是 一 个 视频 播放 器 ， 当 用 户 不 看 
它 的 时 候 ， 它 会 自动 暂停 。seeTXT 是 一 个 阅读 应 用 ， 只 有 当 用 户 看 着 屏幕 时 ， 它 才 会 翻 页 。 

近年 来 ， 眼 动 交互 的 研究 已 成 为 流行 ， 出 版 物 数量 也 增加 了 不 少 。 自 2000 年 以 来 ， 就 
形成 了 一 个 围绕 该 主题 的 专题 会 议 ， 被 称 为 ETRA ( 眼 动 跟 踊 研究 和 应 用 )。 自 2005 年 以 
来 ，COGAIN (视线 交互 通信 ) 倡议 ， 在 欧盟 的 支持 下 还 组 织 了 会 议 并 在 互联 网 上 提供 了 研 
究 论 文 的 目录 。 






































8.6 凝视 指向 














把 凝视 作为 电脑 输入 最 显而易见 的 方法 是 凝视 指向 。 看 东西 是 我 们 的 直觉 ， 眼 睛 能 够 快 
速 且 轻松 地 执行 此 任务 。 指 向 也 是 与 图 形 用 户 界面 交互 的 基本 操作 ， 用 眼睛 来 完成 指向 将 加 
速 我 们 的 交互 。 因 此 ， 大 多 数 视线 交互 的 研究 都 涉及 凝视 指向 。 然 而 ， 正 如 在 反对 和 障碍 的 
ABT (8.4 节 ) 中 已 经 提 到 的 ,凝视 指向 存在 一 些 固有 的 问题 ， 如 点 石 成 金 的 问题 和 低 精 度 


问题 。 
8.6.1 解决 点 石 成 金 问题 


视线 感知 界面 中 有 这 样 的 问题 ， 当 视线 凝视 交互 对 象 时 就 会 触发 相应 指令 ， 即 使 我 们 只 
想 看 看 有 什么 。 这 个 问题 被 称 为 点 石 成 金 问题 。 有 几 种 方法 可 以 解决 它 。 凝 视 系统 ， 通 常用 
于 残疾 人 ， 引 进 了 停留 时 间 的 概念 。 这 意味 着 用 户 要 想 在 交互 中 触发 一 个 指令 ， 视 线 就 必须 
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在 屏幕 上 停留 一 个 特定 的 时 间 ， 即 停留 时 间 。 停 留 时间 通 常 在 500 ~ 1000ms 的 范围 内 ， 并 且 
会 耗 掉 快速 眼 动 所 节省 的 时 间 。 
解决 点 石 成 金 问题 的 男 一 种 方法 是 使 用 男 一 种 形式 ， 如 一 个 凝视 键 。 按 凝视 键 激活 眼睛 
在 看 的 命令 。 使 用 凝视 键 允许 快速 交互 ， 但 也 消除 了 凝视 界面 的 部 分 好 处 。 附 加 一 个 按键 也 
意味 着 界面 不 再 卫生 ， 因 为 有 了 需要 接触 的 东西 。 此 外 ， 因 为 够 得 着 的 距离 内 要 有 一 个 按 
键 ， 所 以 它 不 适用 于 较 长 的 距离 。 最 后 ， 残 疾 人 使 用 凝视 界面 时 不 能 使 用 这 个 按键 ， 因 为 他 
们 无 法 按键 。 更 深入 地 思考 凝视 键 这 个 问题 就 会 发 现 只 有 目的 是 输入 二 维 坐 标 才 是 有 意义 
的 。 通 过 看 “保存 交互 对 象 ”输入 一 个 命令 (例如 ,一 个 保存 操作 ) ， 然 后 按 下 凝视 键 ， 这 
会 引出 问题 : 为 什么 不 干脆 按 CTRL -S 键 ， 而 要 看 特殊 的 交互 对 象 呢 ? 

我 们 经 常 提 到 的 及 眼睛 以 触发 一 个 命令 的 建议 似乎 并 不 是 一 个 选择 。 了 眼睛 一 肯 一 肯 来 保 
持 眼 睛 的 湿润 ， 因 此 ， 一 个 皮 眼 的 指令 要 比 自然 地 皮 眼 用 的 时 间 要 长 ， 而 且 任 何 速 度 上 的 利 
益 都 会 受 损 。 在 凝视 位 置 所 要 触发 的 命令 正好 是 眼睛 闭合 的 时 候 ， 这 是 矛盾 的 。 然 而 ,不 使 
用 是 眼 的 主要 的 原因 是 ， 那 会 让 人 感到 不 和 舒适。 是 眼 有 可 能 会 蔡 代 鼠标 点 击 。 当 我 们 操作 图 
形 用 户 界 面 时 执行 鼠标 点 击 的 次 数 很 多 ， 一 般 都 会 超过 每 小 时 点 击 1000 K. IIR 1000 次 会 
使 眼睛 神经 紧张 。 


8.6.2 精度 问题 的 对 策 


当前 眼 动 仪 的 精度 ， 以 及 我 们 的 眼球 运动 的 精度 ， 都 不 允许 我 们 处 理 微小 的 对 象 ， 甚 至 
是 一 个 像素 。 在 解决 精度 问题 方面 做 了 大 量 的 研究 。 最 简单 的 解决 方案 是 扩大 交互 对 象 。 假 
设 在 72dpi 显示 屏 上 显示 0. Sin 的 精度 意味 着 交互 对 象 不 应 小 于 36 x 36 像素 。 现 有 的 图 形 用 
户 界面 使 用 按钮 的 大 小 为 16 x 16 RR, 菜单 项 或 文本 线 的 高 度 为 8 ~ 12 像素 。 这 意味 着 图 
形 用 户 界面 必须 在 每 一 个 维度 要 增 大 3 倍 ， 或 者 我 们 的 显示 带 需 要 增 大 大 约 10 倍 。 对 于 大 
多 数 情况 下 ， 这 样 浪费 显示 区 域 是 不 能 被 接受 的 。 

研究 提出 了 儿 个 如 何 解 决 的 精度 问题 的 建议 ， 即 原始 和 精细 定位 ， 增 加 智能 ， 扩 大 目 
标 ， 以 及 使 用 进一步 的 输入 方式 。 以 下 会 对 这 些 进 行 讨论 。 

Zhai 等 人 提出 了 一 个 处 理 低 精 度 问 题 的 建议 ， 被 称 为 MAGIC (鼠标 和 凝视 输入 级 联 ) 
ADP, MAGIC 指向 在 原始 定位 中 运用 凝视 ， 同 时 在 精细 定位 中 使 用 传统 的 鼠标 设备 。 
MAGIC 指向 的 基本 思想 是 在 没有 活动 进行 的 一 段 时 间 以 后 将 鼠标 光标 定位 在 第 一 个 鼠标 移 
动 时 的 凝视 位 置 上 。 运 用 MAGIC 指向 时 ,凝视 将 鼠标 指针 放置 在 靠近 目标 的 位 置 ， 并 将 妃 
标 用 于 精细 定位 。 在 Zhai 等 人 的 研究 中 他 们 发 现 有 超出 目标 的 问题 ， 因 为 在 定位 时 手 和 鼠 
标 已 经 在 移动 中 。 他 们 建议 了 一 种 从 距离 和 初始 运动 矢量 计算 得 出 的 补偿 方法 。 

Drewes 等 人 提出 了 该 原则 的 改善 方法 ， 并 称 之 为 MAGIC 触摸 (31 。 他 们 制作 了 一 个 有 
触摸 感 测 需 的 鼠标 ， 在 触摸 鼠标 时 将 鼠标 指针 放置 在 凝视 位 置 。 改 进 之 处 在 于 补偿 方法 的 缺 
失 ， 因 为 将 手指 放 在 鼠标 键 的 时 候 ， 鼠 标 没 有 移动 。 必 一 个 优点 是 用 户 可 以 选择 凝视 定位 的 
时 间 ， 并 且 不 需要 一 段 鼠 标 闲置 的 时 间 。 

当 看 到 人 们 在 大 屏幕 或 双 显示 器 设备 前 工作 时 ， 会 很 容易 发 现 他 们 有 时 候 很 难 找到 鼠标 
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指针 。 此 外 ， 很 多 时 候 鼠 标 指针 离 我 们 想 要 指向 的 目标 很 还 。 因 此 ， 很 有 必要 将 鼠标 从 屏幕 
很 远 的 地 方 拖 过 来 。 用 凝视 进行 原始 定位 和 用 鼠标 进行 精细 定位 的 原则 不 仅 可 以 解决 精确 问 
题 ， 还 能 够 避免 找 鼠 标 指 针 的 麻烦 。 此 外 ， 它 还 节省 了 鼠标 覆盖 的 长 距离 ， 因 此 有 助 于 防止 
重复 性 压力 损伤 。 

2000 年 Salvucci 和 Anderson 提出 了 他 们 的 智能 凝视 界面 39]。 启 动 这 个 界面 的 系统 ， 烯 
视 追 踊 器 向 标准 的 GUI 提供 X-Y 位 置 ， 用 户 所 观看 的 交互 对 象 就 会 变 亮 。 凝 视 键 ， 类 似 于 
鼠标 键 ， 为 用 户 提 供 触 发 动作 的 可 能 性 。 为 解决 精度 问题 ， 系 统 智 能 地 理解 凝视 输入 : 它 将 
凝视 点 映射 到 用 户 可 能 留意 的 条 目 。 为 了 找 出 这 些 条 目 ， 该 系统 使 用 概率 算法 ， 通 过 凝视 位 
E ( 即 接 近 所 报告 的 凝视 点 的 条 目 ) 和 任务 的 上 下 文 (例如 ， 一 个 命令 后 会 有 男 一 个 命令 
的 可 能 性 ) 来 确定 。 
解决 精度 问题 的 另 一 种 方法 是 使 用 目标 扩大 。Balakrishnan |3"! 和 Zhai!) 研究 了 手动 指 
向 中 扩大 目标 的 运用 ， 并 指出 该 技术 对 指向 性 任务 有 所 帮助 。Miniotas Spakov 和 MacKenzie 
把 这 项 技术 应 用 于 眼 凝 视 指 向 中 [3] 。 在 他 们 的 实验 中 ， 扩 大 的 目标 并 没有 视觉 地 呈现 给 用 
户 ， 但 界面 响应 一 个 扩展 的 目标 区 域 。 他 们 称 这 种 技术 为 静态 扩展 。 在 第 2 篇 文章 中 ，Min- 
iotas 和 Spakov 对 扩大 目标 进行 了 动态 研究 [034 ， 即 目标 的 扩大 对 用 户 可 见 。 这 项 研究 是 针 
对 菜单 目标 的 ， 结 果 表 明 ， 增 加 选择 的 时 间 会 显著 降低 选择 菜单 项 的 错误 率 。 

Ashmore 和 Duchowski 在 同一 年 发 表 了 利用 鱼 眼 晶状体 来 支持 眼睛 指向 的 观点 [35]。 

2007 年 Kumar 等 人 提出 了 一 种 眼 凝视 界面 ， 并 称 之 为 视点 5。 此 界面 使 用 了 交互 目 
标的 扩大 技术 ， 并 有 旦 也 使 用 了 一 个 键 作为 额外 所 需 的 输入 方式 。 当 按 下 这 个 键 时， 所 凝视 的 
屏幕 区 域 就 会 扩大 。 在 这 个 放大 的 屏幕 区 域内 ， 用 户 用 凝视 选择 目标 ， 用 户 一 松 开 键 就 会 触 
发 动作 。 

凝视 指向 的 不 准确 性 意味 着 如 果 多 个 目标 离 得 很 近 ， 指 向 性 行为 对 于 目标 就 会 有 模糊 
性 。Minotas 等 人 从 中 得 到 了 启发 ， 运 用 一 个 额外 的 语音 指令 来 确定 目标 97] 。 他 们 用 不 同 颜 
色 的 目标 ， 并 要 求 用 户 大 声 说 出 目标 的 颜色 。 他 们 发 现 这 种 方法 可 以 处 理 大 小 在 0. 85° 内 ， 
相互 距离 在 0.3° 的 目标 。 

在 速度 方面 该 方法 并 没有 带 来 好 处 。 操 作 标 准 的 图 形 用 户 界面 的 情况 下 ， 这 个 方法 带 来 
的 更 精确 的 指向 性 是 否 值 得 额外 加 语音 的 麻烦 还 不 清楚 。 然 而 ， 这 个 概念 还 是 很 有 趣 ， 因 为 
它 与 人 和 人 交互 十 分 相似 。 通 常情 况 下 ,我们 都 能 知道 其 他 人 朝 什 么 方向 看 ,但 精度 远 低 于 
眼 动 仪 。 当 我 们 说 , “请 给 我 绿色 的 书 ”， 并 朝 桌 子 看 ， 别 人 会 给 我 们 从 桌子 上 拿 绿 色 的 书 ， 
而 不 是 从 书架 上 拿 。 我 们 假设 其 他 人 知道 我 们 在 看 哪里 ， 只 需要 在 那个 范围 内 指定 对 象 。 
8. 6.3 鼠标 指向 和 凝视 指向 对 比 

更 深入 地 了 解 凝视 指 问 的 一 个 好 办 法 就 是 将 之 与 其 他 指向 方法 相 比 较 。 除 了 精度 和 速 
度 ， 指 向 设备 还 在 以 下 方面 存在 不 同 : 空间 要 求 、 反 馈 提供 、 是 否 支 持 多 指针 、 指 向 模式 。 
表 8.1 给 出 了 这 些 属性 的 概述 。 

费 茨 定律 给 出 指向 设备 的 速度 和 精度 之 间 的 关系 。 指 向 操作 要 达到 更 高 的 精度 要 求 更 多 
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的 时 间 。 在 触摸 屏幕 或 凝视 指向 的 情况 下 ， 人 体 组 织 尺 寸 限 制 了 精度 。 指 向 目标 的 大 小 是 由 
手指 或 中 央 四 的 大 小 来 决定 的 ， 并 不 是 由 速度 -精度 来 决定 。 

鼠标 在 桌子 上 运动 需要 一 定 的 空间 。 当 你 坐 火 车 或 飞机 的 时 候 ， 空 间 往 往 是 不 足够 的 ， 
因此 移动 设备 通常 使 用 轨迹 球 、 轨 迹 杆 ， 或 触摸 板 。 和 触摸屏 不 需要 额外 的 空间 ， 但 手指 的 精 
度 低 ， 因 为 指 尖 会 遮挡 住 一 些 视觉 信息 。 为 了 实现 在 触摸 屏 上 的 高 精度 ， 人 们 使 用 尖 细 的 触 
控 笔 。 凝 视 指向 所 需要 的 空间 和 精度 类 似 于 手指 点 击 触 摸 屏 。 但 是 凝视 不 会 遮挡 视觉 信息 ， 
但 使 用 触 控 笔 来 增加 精度 不 是 不 可 取 的 。 

对 于 间接 工作 的 指向 装备 ， 鼠 标 指针 的 反馈 是 必要 的 。 对 于 直接 在 触摸 板 上 指向 ， 反 馈 
是 没有 必要 的 。 凝 视 指向 也 是 一 个 直接 工作 的 方法 ， 不 需要 反馈 。 之 所 以 凝视 指向 也 可 以 要 
反馈 ,是 来 确保 眼 动 仪 所 报告 的 坐标 就 是 凝视 的 位 置 。8. 6. 5 节 将 讨论 凝视 指向 的 反馈 和 引 
入 凝视 指针 却 适得其反 的 原因 。 

多 指针 的 使 用 是 当前 研究 的 一 个 主题 。 有 很 多 关于 双手 的 交互 和 使 用 所 有 手指 指向 的 讨 
论 。 很 明显 对 于 了 眼睛， 双眼 是 同步 移动 的 ， 我 们 不 能 独立 地 使 用 两 只 眼睛 。 多 凝视 指针 只 对 
多 个 人 有 意义 。 

许多 图 形 用 户 界 面 操作 使 用 指针 配合 在 鼠标 键 上 的 点 击 ， 这 意味 着 需要 一 个 额外 的 模式 。 
触摸 屏 不 是 这 种 情况 ， 触 摸 能 提供 指向 以 及 点 击 。 触 摸 板 不 可 能 做 到 与 触摸 屏 相 同 ， 因 为 间接 
方法 不 允许 直接 触摸 目标 。 触 摸 发 生 在 反馈 指针 指向 目标 之 前 ， 因 此 ， 触 摸 对 触发 目标 相应 的 
指令 是 没 用 的 。 触 摸 板 可 以 增加 压力 代替 点 击 ， 但 安装 了 触摸 板 的 商业 设备 通常 会 提供 额外 的 
鼠标 键 。 与 传统 的 指向 装置 相 比 ， 和 触摸屏 是 与 凝视 指向 最 相似 的 。 最 大 的 不 同 在 于 ， 手 指 可 
以 被 提起 来 移动 到 男 一 个 位 置 ， 而 凝视 并 不 能 。 因 此 ,凝视 不 能 像 手 指 一 样 进行 点 击 。 

表 8.1 指向 设备 的 属性 


























































































































鼠标 轨迹 球 轨迹 杆 触摸 板 触摸 屏 凝视 
速度 快 快 一 般 快 快 非常 快 
精度 时 间 时 间 时 间 时 间 手指 的 大 小 中 央 媚 的 大 小 
空间 要 求 多 少 少 少 无 无 
反馈 是 是 是 是 T B 
方法 间接 间接 间接 间接 直接 直接 
多 指针 双手 双手 双手 10 只 手指 10 只 手指 一 双眼 睛 
内 在 点 击 E E T 是 ( 否 ) 是 F 























8.6.4 鼠标 和 凝视 协调 


图 8. 10 和 图 8. 11 展示 了 典型 的 鼠标 和 凝视 指向 目标 的 移动 。 有 趣 的 是 ， 视 线 直 接 移 动 
到 目标 ， 不 看 鼠标 指针 的 位 置 。 在 周边 视野 区 域 ， 运 动 检测 效果 良好 ， 而 且 通 过 凝视 指向 无 
需 点 击 鼠 标 指针 。 

凝视 指向 不 会 给 眼 部 肌肉 造成 额外 的 负担 ， 不 会 比 使 用 传统 鼠标 给 眼睛 造成 更 大 的 压 
力 。 原 因 很 简单 ， 因 为 我 们 不 看 目标 就 无 法 选中 它 。 在 特殊 条 件 下 ， 如 我 们 能 用 周边 视觉 看 
到 大 的 目标 的 条 件 下 ， 那 么 跟随 鼠标 光标 的 运动 并 将 其 引导 到 仅 有 运动 图 像 的 目标 ,但 凝视 
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不 会 点 击 目标 ， 这 种 情况 将 成 为 可 能 。 
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图 8.10 没有 背景 的 典型 鼠标 任务 图 8.11 没有 背景 的 典型 鼠标 任务 中 的 视线 ( 虚 








中 的 视线 ( 虚线) 和 鼠标 移动 〈 实 线 ) 。 线 ) 和 鼠标 移动 〈 实 线 ) ， 随 时 间 到 目标 的 距离 绘图 
点 状 的 灰色 线 连接 同一 时 间 的 点 


鼠标 指针 直接 向 目标 移动 意味 着 用 户 在 开始 动作 之 前 就 已 经 知道 了 鼠标 指针 的 位 置 。 在 
复杂 背景 下 指向 目标 的 任务 将 破坏 用 户 提前 感知 的 可 能 性 ， 而 且 用 户 不 知道 鼠标 指针 的 位 
置 。 通 常情 况 下 ， 人 们 最 开始 移动 鼠标 ， 让 它 运动 来 检测 鼠标 指针 。 图 8. 12 和 图 8. 13 展示 
了 此 情况 。 

如 图 8. 11 和 图 8. 13 所 示 ， 有 眼睛 和 手 具 有 大 约 相同 的 反应 时 间 ， 但 是 视线 到 达 目 标的 时 
间 要 早 得 多 。 因 此 ， 族 视 指 向 绝对 比 鼠 标 指向 更 快 。 鼠 标 指向 可 能 发 生 的 情况 是 ， 我 们 不 知 
道 鼠 标 指针 在 哪里 ， 必 须 先 找 到 它 ， 而 这 种 情况 凝视 指向 永远 不 会 发 生 。 凝 视 指向 并 按 下 凝 
视 键 是 目前 已 知 的 最 快 的 指向 方式 ， 通 常 需要 大 约 600ms， 即 300ms 反应 时 间 、100ms 视线 
移动 到 目标 和 200ms 按 下 键 。 
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图 8.12 复杂 背景 下 的 典型 鼠标 任务 中 的 图 8.13 复杂 背景 下 的 典型 鼠标 任务 中 的 凝视 





凝视 (虚线 ) 和 鼠标 轨迹 ( 实 线 )。 一 开始 ， CER) 和 鼠标 轨迹 (K2), ， 随 时 间 到 目标 的 距离 
使 用 者 移动 鼠标 来 检测 鼠标 的 位 置 绘图 
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8.6.5 凝视 指向 反馈 


与 凝视 指向 相关 的 一 个 有 趣 的 问题 就 是 反馈 的 提供 。 当 然 ， 用 户 知 道 她 或 他 正在 看 的 方 
向 ,但 是 无 法 达到 单 像素 的 精度 。 此 外 ， 可 能 存在 的 校准 误差 会 造成 的 凝视 位 置 和 眼 动 仪 所 
报告 的 位 置 不 同 。 若 提供 一 个 凝视 反馈 的 光标 ， 则 会 导致 凝视 满 屏 追逐 视线 光标 ， 或 者 就 像 
Jacob 所 说 的 那样 ; 

“如 果 有 任何 系统 的 校准 误差 ， 该 光标 就 会 从 用 户 实际 上 看 的 地 方 稍微 偏 移 ， 导 致 用 户 
的 视线 被 吸引 到 该 光标 处 ， 这 将 进一步 改变 光标 位 置 ， 创 造 一 个 正 反 馈 回路 。”1”3”] 

然而 ,这样 追逐 视线 反馈 光标 的 情况 通常 不 会 发 生 。 眼 睛 似乎 并 不 关心 光标 是 否 正 处 于 
清晰 视觉 区 域 的 正中 心 ， 因 此 ， 视 线 并 没有 被 吸引 到 光标 处 。 进 一 步 解释 这 种 现象 不 会 发 生 
的 原因 是 眼 动 仪 的 过 滤 算 法 。 原 始 的 凝视 数据 通常 是 非常 混乱 的 ， 因 此 ,传输 给 应 用 程序 的 
凝视 数据 通常 会 进行 平滑 处 理 。 在 许多 情况 下 ， 会 对 原始 数据 进行 一 个 扫 视 (和 凝视 ) 检 
W, 凝视 感知 应 用 程序 只 会 得 到 扫 视 的 通知 。 在 这 种 情况 下 ， 凝 视 方向 的 微小 变化 不 改变 所 
报告 的 坐标 ， 反 馈 光 标 不 移动 ; 如 果 凝 视 位 置 变化 超过 一 个 国 值 ， 那 么 反馈 光标 才 会 移动 。 

在 原始 数据 的 基础 上 提供 一 个 反馈 光标 ， 这 个 光标 会 变 成 变形 的 光标 。 因 为 原始 数据 通 
稼 包含 由 凝视 检测 产生 的 噪声 。 数 据 平 请 的 反馈 光标 仍然 是 变形 的 而 且 显示 延迟 。 引 入 效 值 
来 表示 凝视 位 置 的 变化 ， 这 是 扫 视 检测 的 一 个 简单 形式 。 它 能 产生 一 个 稳定 但 跳动 的 反馈 光 
标 ， 因 为 光标 移动 至 少 是 所 述 的 阀 值 距离 。 所 有 例子 与 其 说 有 用 倒 不 如 说 更 加 令 人 不 安 ， 因 
此 ,不 应 该 有 任何 的 凝视 光标 。 这 并 不 意味 着 反馈 是 不 必要 的 。 通 常情 况 下 ， 系 统 使 用 凝视 
指向 突出 目光 所 聚焦 的 对 象 。 如 果 系 统 使 用 停留 时 间 的 方法 ， 提 供 对 所 用 时 间 的 反馈 是 一 个 
好 主意 。 至 于 目光 感知 的 应 用 程序 应 不 应 该 提供 或 者 提供 什么 样 的 反馈 ， 取 决 于 应 用 程序 ， 
并 且 没 有 统一 的 答案 。 




























































































8.7 凝视 姿势 





8.7.1 凝视 姿势 的 概念 


姿势 是 计算 机 交互 的 一 种 可 行 方式 。 智 能 手机 是 由 手指 在 触摸 感知 的 显示 屏 上 触摸 而 运 
行 的 ， 随 着 智能 手机 的 推行 ， 这 种 交互 的 概念 突然 变 得 非常 流行 。3D 扫描 仪 可 以 检测 手 或 
身体 的 姿势 ， 并 提供 另 一 种 形式 的 姿势 交互 ， 这 种 交互 主要 用 于 游戏 领域 。 

当然 ， 姿 势 与 眼神 共同 执行 的 想法 更 容易 达成 。 我 们 当然 在 人 与 人 的 互动 中 使 用 眼 姿势 
(例如 ， 我 们 是 是 眼 或 滚动 眼球) 。 这 种 眼 姿 势 包括 眼 蛤 和 眉毛 的 动作 ， 属 于 面部 表情 的 
部 分 。 这 里 介绍 的 姿势 仅 限 于 眼球 或 凝视 方 品 的 运动 。 这 种 姿势 是 可 以 在 眼 动 仪 提供 的 数据 
中 检测 到 的 。 

2000 年 ，Isokoski 建议 使 用 屏幕 外 的 目标 进行 文字 输入 G3]。 凝 视 若 要 输入 字符 ， 必 须 
以 一 定 的 顺序 来 看 屏幕 外 的 目标 。 虽 然 Isokoski 没有 使 用 “姿势 ”一 词 , 但 由 此 产生 的 眼球 
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运动 就 是 凝视 姿势 。 然 而 ， 屏 幕 外 的 目标 迫使 手势 要 在 一 个 固定 的 位 置 、 以 一 个 固定 的 大 小 
进行 。 这 种 姿势 依然 需要 校准 眼 动 仪 。 

2003 年 ，Milekic 使 用 了 术语 “凝视 姿势 "ii 。Milekic 概述 了 在 博物 馆 环境 中 开发 基于 
凝视 的 界面 的 一 个 概念 性 的 框架 ,但 是 他 来 自 艺 术 教 育 和 艺术 心理 治疗 的 一 个 部 门 ， 所 以 他 
的 方法 并 不 是 严格 的 科学 一 一 没有 算法 ,没有 用 户 研 究 。 

与 Isokoski 的 凝视 姿势 相反 ， 由 Wobbrock 等 人 [14901 以 及 Drewes 和 Schmidtt41 提 出 来 的 凝 
视 姿 势 规 模 可 大 可 小 ， 并 且 可 以 在 任何 位 置 进 行 。 这 种 姿势 的 一 大 优势 是 ， 即 使 没有 眼 动 仪 
的 校准 ， 它 们 也 能 够 起 作用 。 


8.7.2 姿势 检测 算法 


流行 的 网 络 浏览 器 鼠标 手势 插件 给 凝视 姿势 提供 了 灵感 。 此 手势 插件 跟踪 鼠标 移动 并 把 
它 转换 成 代表 8 个 方向 动作 的 字符 或 记号 。8 个 方向 是 U、R、D 和 工 ， 分 别 代 表 上 、 碳 、 
下 、 左 。 根据 键盘 上 的 数字 键盘 的 标准 布局 ，1 、3、7 和 9 为 对 角 方 向 。 鼠 标 手势 检测 算法 
接收 x 和 y 坐标 。 每 当 这 一 个 或 两 个 坐标 都 超过 开始 位 置 的 阐 值 距离 (或 网 格 大 小 ) ， 算 法 
输出 一 个 字符 为 运动 的 方向 ， 但 它 要 与 上 一 个 字符 不 同 。 当 前 坐标 成 为 新 的 起 始 位 置 ， 新 动 
作 的 检测 也 开始 了 。 其 结果 是 一 连 串 的 坐标 转换 成 一 连 串 的 字符 (ULL 8. 14) 。 一 串 字 符 描 
述 了 一 个 手势 ， 当 算法 在 一 连 串 的 字符 中 发 现 手 势 序列 能 转换 成 手势 ， 那 么 该 算法 就 会 给 出 
手势 出 现 的 信号 来 显示 手势 的 出 现 。 















































己 检测 到 的 动作 
ae hel te Oe 
i mi = 一 t= 一 
第 “次 动作 E 
网 格 原点 RFR 





ere PEED, EPE eae E 
l 
l 
l 
l 
l 


=---p--------7- 


图 8.14 图 中 显示 了 鼠标 或 凝视 路 径 如 何 转换 成 字符 串 R9U。 检 测 到 的 动作 的 终点 是 下 一 次 动作 检测 的 原点 


鼠标 手势 算法 也 适用 于 凝视 姿势 。 有 趣 的 是 ， 凝 视 运 动 比 鼠 标 运动 更 加 适合 姿势 检测 。 
首先 ， 手 部 动作 的 自然 运动 空间 是 弯曲 的 ， 而 眼睛 的 扫 视 运动 是 直线 。 其 次 ， 和 鼠标 轨迹 是 一 
个 连续 的 坐标 系 ， 在 同一 时 刻 ， 这 两 个 坐标 都 超过 阔 值 是 几乎 不 可 能 的 ， 这 意味 着 对 角 线 上 
的 笔画 很 难 被 检测 到 。 对 于 对 角 运 动 的 检测 ， 只 有 运动 的 开始 点 和 结束 点 就 很 好 。 凝 视 运 动 
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的 扫 视 检测 提供 的 正 是 这 一 点 。 
8.7.3 执行 凝视 姿势 的 人 类 能 


作为 一 种 主动 的 交互 方式 ,凝视 姿势 最 重要 的 问题 是 ， 人 们 是 否 能 够 执行 它们 。 效 视 姿 
势 绝对 不 是 很 直观 的 。 并 不 是 所 有 试图 执行 凝视 姿势 的 人 都 会 立即 成 功 的。 要求 受 试 者 沿 直 
P 结果 大 多 数 受 试 者 都 感到 很 困惑 ， 同 时 要 求 他 们 按 一 定 顺序 观看 某 些 

结果 则 更 好 。 因 此 ， 为 用 户 提 供 一 些 支 持 点 (不 是 直线 ) 是 一 个 好 主意 。 显 示 带 的 四 
E 很 好 地 让 凝视 执行 凝视 姿势 。 或 者 ， 对 话 框 窗口 的 四 个 角 也 可 以 。 

执行 一 个 姿势 的 时 间 是 由 动作 时 间 和 停留 时 间 组 成 ,停留 时 间 被 叫 作 定 睛 时 间 。 图 8.4 
显示 了 扫 视 时 间 与 视角 的 关系 ， 可 以 转换 为 一 定 长 度 的 动作 时 间 。 从 图 8.4 中 ， 我 们 得 知 ， 
长 扫 视 持续 时 间 约 为 100 ~150ms， 而 且 对 扫 视 的 长 度 只 有 一 点 点 依赖 。 因 此 ， 执 行 一 个 凝 
视 姿 势 的 时 间 并 不 取决 于 姿势 的 大 小 ， 除 非 该 姿势 非常 小 。 如 果 代表 动作 数 ，5 代表 扫 视 
时 间 , 下 代表 定 睛 时 间 ， 一 个 姿势 的 总 时 间 7 为 

T=nS+(n-1)F 

从 理论 上 讲 ， 定 睛 时 间 可 能 是 零 ， 执 行 一 个 姿势 的 最 小 时 间 可 能 是 120ms 乘 以 执行 姿势 

时 的 动作 数 。 实 际 上 ， 特 别 是 未 经 训练 的 用 户 需要 几 百 毫秒 的 定 有 睛 时 间 。 


8.7.4 凝视 姿势 字母 表 


显示 屏 的 4 个 角 完 美 地 匹配 了 正方 形 姿 势 ， 正 方形 手势 也 被 称 为 EdgeWrit 姿势 [21 。 
EdgeWrite 姿势 使 用 的 顺序 是 到 达 一 个 正方 形 的 4 个 角 的 顺序 ( 见 图 8. 15) 。 


KM WZ 


图 8.15 4 个 角 和 用 于 EdgeWrite 姿势 的 6 条 连接 线 ， 还 有 EdgeWrite 姿势 的 例子 (数字 0、1、2 和 3) 


用 在 姿势 检测 中 介绍 的 符号 很 容易 描述 所 有 e 。 

能 的 正方 形 姿 势 。 例 如 字符 串 LD9DL 代表 的 是 x 
ee Fi — Fy FB URUR 不 是 
一 个 正方 形 姿势 ， 因此 ， 正方 形 姿 势 是 鼠标 手势 RDLU RIR7 有 RDLRUL 


的 一 个 了 了 集 。 尽 管 如 此 ， 正 方形 姿势 还 是 有 能 力 Wg 4 个 或 6 个 动作 的 正方 形 闭合 凝 
定义 Wobbrock 等 人 [1 展示 的 大 型 字母 表 。Wob- 视 姿势 的 3 个 例子 

brock 等 人 把 拉丁 字母 表 中 的 每 一 个 字母 和 数字 

都 分 配 了 至 少 一 个 姿势 。 正 方形 姿势 似乎 提供 了 合适 字母 表 的 开始 。 图 8. 16 展示 了 4 个 或 6 
个 动作 的 近似 于 正方 形 手 势 的 凝视 姿势 的 3 个 例子 。 
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EdgeWrite 字母 表 使 用 与 拉丁 字母 和 数字 类 似 的 姿势 。 这 使 得 姿势 比较 容易 被 记 住 ， 但 
也 暗示 着 使 用 姿势 进行 文本 输入 。 选 择 字母 表 取 决 于 姿势 的 应 用 。 如 后 面 所 述 ， 文 本 输入 似 
乎 不 是 姿势 最 好 的 应 用 。EdgeWrite 字母 表 来 表示 凝视 姿势 存在 一 个 普遍 的 问题 ， 就 是 要 检 
测 姿势 什么 时 候 开 始 什 么 时 候 结 束 。FEdgeWrite 字母 表 是 为 手写 笔 用 于 手势 输入 而 发 明 的 ， 
并 且 手 势 以 抬 起 手写 笔 而 结束 。 凝 视 姿势 的 这 种 情况 就 会 发 生 点 石 成 金 问题 。 

凝视 姿势 的 一 种 可 能 的 应 用 是 远程 还 控 电视 机 。 对 于 电视 机 这 样 的 应 用 ， 可 由 凝视 姿势 
来 上 下 切换 频道 或 调节 音量 。 在 这 种 交互 中 ， 同 一 姿势 重复 发 生 是 很 可 能 的 (例如 ， 把 频 
道 向 上 切换 3 次 ) 。 在 这 种 情况 下 ， 使 用 闭合 的 姿势 会 更 舒适 。 闭 合 姿势 中 , 姿势 的 结束 位 
置 也 是 姿势 起 始 位 置 。 和 否则， 为 了 重复 姿势 ， 凝 视 必 须 从 姿势 的 结束 位 置 移动 到 开始 位 置 。 
这 意味 着 额外 的 动作 。 这 也 造成 了 姿势 检测 识别 为 为 一 个 姿势 的 风险 。 


8.7.5 姿势 从 自然 眼 动 中 分 离 


鼠标 手势 算法 需要 一 个 手势 键 ， 通 常 是 鼠标 右键 ， 来 让 系统 检测 到 手势 ， 否 则 鼠标 移动 
的 正常 操作 将 与 手势 检测 发 生 冲 突 。 当 然 ， 雍 视 姿 势 也 可 以 使 用 与 鼠标 手势 相同 的 机 制 ， 但 
这 会 使 凝视 姿势 几乎 没有 用 处 。 如 果 执 行 凝视 姿势 来 触发 指令 时 ， 某 个 键 一 定 要 被 按 下 ， 那 
么 按 下 某 个 键 来 触发 指令 ,根本 用 不 上 凝视 姿势 。 也 许 在 非常 特殊 的 情况 (例如 ,在 只 
一 个 键 的 移动 环境 ) ， 姿 势 键 才 是 有 意义 的 ， 但是， 在 一 般 情况 下 ， 姿 势 键 会 破坏 凝视 交互 
的 所 有 好 处 。 因 此 ， 有 必要 把 凝视 姿势 从 眼睛 的 自然 运动 中 分 离 出 来 。 然 而 ， 这 似乎 不 是 一 
件 容 易 的 事 。 

一 种 可 能 性 是 仅 在 特定 的 情况 下 检测 姿势 。 例 如 ， 如 采 要 用 凝视 姿势 来 关闭 对 话 框 ， 那 
么 当 对 话 框 出 现时 姿势 检测 开始 ， 对 话 框 关 闭 时 姿势 检测 结束 。 这 意味 着 ， 姿 势 检测 只 发 生 
在 对 话 框 打开 的 情况 下 ， 并 且 通 常 时 间 很 短 。 如 采 姿 势 检 测 活路 的 时 间 很 得， 那么 自然 眼 动 
中 出 现 不 经 意 的 凝视 姿势 的 概率 是 很 小 的 。 

男 一 种 把 有 意 的 凝视 姿势 和 自然 眼 动 分 离开 的 可 能 性 在 于 选择 合适 的 姿势 。 姿 势 的 动作 
越 多 ， 就 越 不 可 能 发 生 在 自然 眼 动 中 。 然 而 ,动作 增 加， 凝视 姿势 需要 更 多 的 时 间 来 执行 并 
且 姿势 很 难 被 记 住 。 对 自然 眼 动 的 分 析 显 示 ， 某 些 姿势 的 出 现 频率 比 其 他 姿势 更 为 频繁 。 坐 
在 电脑 显示 器 前 的 人 们 的 眼 动 包含 了 许多 RLRLRL 姿势 ， 这 是 由 阅读 产生 的 姿势 。 姿 势 的 发 
生 频 率 取决 于 人 们 的 活动 ; 许多 人 在 打字 的 时 候 发 生 DUDUDU 姿势 ， 因 为 他 们 要 低头 看 键 
盘 再 看 显示 屏 。 

Drewes 等 人 引入 了 第 9 个 标记 ， 即 冒号 ， 来 表示 超时 的 情况 。 在 超时 这 个 概念 背后 的 想 
法 是 ， 姿 势 应 该 在 短 时 间 内 完成 。 如 采 凝 视 在 一 个 网 格 单元 内 保持 不 动 ， 那 么 检测 算法 不 会 
报告 任何 标记 。 在 这 种 情况 下 ， 改 良 后 的 算法 将 产生 一 个 冒号 隔 开 随后 的 标记 和 之 前 的 标 
id, Drewes [8] 用 人 们 上 网 和 观看 视频 的 凝视 数据 ， 即 不 同 的 参数 ， 改 变 网 格 尺 寸 和 不 同 的 
超时 数据 来 检测 凝视 姿势 识别 。 从 自然 腿 动 中 分 离 凝视 姿势 的 解决 方法 竞 然 是 如 此 出 奇 的 简 
单 : 当 使 用 接近 显示 屏 大 小 的 网 格 时 ， 几 乎 没有 具有 4 个 或 更 多 动作 的 凝视 姿势 发 生 。 跨 越 
屏幕 的 长 扫 视 很 少 发 生 在 自然 眼 动 中 ， 连 续 4 个 或 更 多 的 长 扫 视 更 是 几乎 从 来 不 会 发 生 。 
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超时 参数 在 价值 上 不 是 紧要 的 ,但 是 很 重要 。 在 大 的 网 格 尺 寸 下 ， 凝 视 通 常会 在 转移 到 
另 一 个 单元 前 ， 在 上 一 个 单元 停留 很 长 一 段 时 间 。 如 果 没 有 冒号 ， 算 法 可 能 检测 到 了 长 时 间 
的 姿势 ， 而 这 些 姿势 并 不 是 用 户 有 意 为 之 。 只 要 超时 的 间隔 比 凝视 在 一 个 单元 里 平均 停留 的 
时 间 要 短 ， 分 离 就 起 作用 了 。 进 一 步 减少 超时 并 不 提高 分 离 。 表 8. 2 显示 了 记录 的 眼 动 使 用 
不 同 值 的 参数 转换 为 姿势 字符 串 。 

表 8.2 使 用 不 同 网 格 大 小 s 和 超时 时 间 上 将 同一 个 眼 动 (上 网 ) 转换 成 一 个 姿势 字符 串 
参数 姿势 字符 串 结 果 
s=80 :3LUD::7R1L9:73LR:73LR:7379RL:U:D:03:LU::RL::R13U::LR:R:73:73D:73: 
LRLRLR7373DU7LD:RULI3L:R:RL:RL:LRL:R7I3L9RIUR3DR::7， 
URLRLRLRDLR7U:R3RL:LR 












































s =80 :3LU;D;;7R;1L9;7;3LR; ;73L;R; :737:9;RL;U;D;U3;LU;;RL;;RI3U;;LR:R;73 :73D;73; 
LR; LRLR7373DU7LD ; RULI ;3L;R;RL;RL; LRL;;R;7L;3;L9R;1UR3DR; :7: 


t =700 
URLRL: RLRDLR7U 
s =250 :3L:::7R:10:03::7RL:UDU:L::::::::RD:R::::73::73::::1::L:::R::L:R:L:::R7:R:RL: 
i000 DR:L::s:sU:R:R: LR:L:RL:UD:R:::L: LR:L:3:L:::::::D:RL:RLRL: :DRL:; 
RLRLRLRLR:LRLRL: RLR:7::: 
s=250 Bia SR ie RD: R7373 es i LR: LR:: 
R: :RLDR:L: ARR :LR:::L: :RL:: Gy oe TRL Bade sel, Big :RL: 
0 RLr::D:RL::RL:RL 
s=400 :3:21L:D: ice DG | Os ce eS RLU RLR: :7 R: LR:7: 
Ee Ried LR plac 和 
+ = 1000 


RL; :RL:RL:R::L:::RL: 


8.7.6 凝视 姿势 的 应 用 


通过 凝视 姿势 进行 文本 输入 是 可 能 的 ， 但 值得 商检 的 是 它 是 否 有 意义 。 对 于 一 个 没有 经 
验 的 用 户 而 言 ， 输 入 一 个 字符 花费 1 ~2s。 即 使 是 训练 有 素 的 用 户 要 进行 带 有 停留 时 间 的 标 
准 的 凝视 打字 ， 都 可 能 存在 问题 ， 通 常 每 个 字符 需要 5000ms 的 停留 时 间 。 此 外 ， 执 行 凝视 
姿势 没有 直 视 一 个 键 那么 直观 ， 因 此 没有 理由 认为 用 户 会 更 喜欢 凝视 姿势 输入 法 。 

凝视 姿势 的 最 大 优点 之 一 是 它们 无 需 校准 即 可 工作 。 因 此 ， 一 个 明显 的 想法 是 使 用 凝视 
姿势 来 为 残疾 人 调用 系统 的 校准 程序 。 

凝视 姿势 给 不 同 的 人 提供 了 一 次 性 使 用 的 界面 ， 因 为 没有 校准 程序 。 此 外 ， 凝 视 姿势 工 
作 不 需要 接触 任何 东西 ， 因 此 可 以 在 高 度 卫生 的 环境 中 使 用 ， 如 手术 室 或 实验 室 。 凝 视 姿势 
比 视线 接触 传感器 或 其 他 非 接触 式 的 技术 ， 如 容量 传 感 需 或 光电 屏障 提供 更 复杂 的 控制 。 

凝视 姿势 是 否 可 以 作为 电视 机 的 远程 遥控 器 ， 是 否 能 成 为 普遍 使 用 的 而 不 是 只 针对 特殊 
用 途 的 输入 技术 ， 这些 问题 很 有 趣 ， 并 且 仍 然 处 于 开放 的 状态 。 凝 视 姿 势 远程 遥控 的 最 大 优 
点 不 需要 控制 装置 不 会 找 不 着 ， 也 不 用 为 电池 充电 。 然 而 ， 一 些 电 视 机 制造 商 现在 卖 
的 是 可 以 通过 手势 来 控制 的 电视 机 。 手 势 控制 更 加 直观 并 且 能 给 用 户 带 来 同样 的 好 处 。 
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应 用 凝视 姿势 的 为 一 个 领域 是 移动 计算 。 在 移动 环境 中 ， 解 放 双 手 来 做 其 他 任务 是 可 取 
的 。 凝 视界 面 能 让 这 点 变 得 方便 。 凝 视 指向 需要 在 显示 屏 上 有 看 的 对 象 ， 因 此 出 于 这 个 原 
因 ， 显 示 屏 需要 增强 现实 。 然 而 ， 这 种 交互 方式 中 凝视 的 对 象 会 掩盖 部 分 视觉 内 容 。 凝 视 姿 
势 则 不 需要 任何 交互 对 象 ， 并 节省 显示 屏 的 空间 。 在 增强 现实 显示 屏 和 图 形 用 户 界面 的 背景 
下 ， 顺 时 针 方向 看 向 窗口 的 四 角 来 关闭 一 个 对 话 框 ， 这 样 的 事情 是 可 以 想象 得 到 的 。 一 个 
RDLU 姿势 和 鼠标 点 击 OK 按钮 一 样 ， 都 能 关闭 对 话 框 。 逆 时 针 方向 看 窗口 的 四 角 就 像 用 一 
个 NO 来 关闭 该 对 话 框 ， 如 果 有 必要 的 话 ， 交 又 的 姿势 像 3U1U 意味 着 取消 操作 。 

Bulling 等 人 表示 凝视 姿势 对 移动 应 用 同样 适用 '*，]。 他 们 使 用 了 眼 电 图 为 他 们 的 研究 进 
行 眼 动 跟踪 ， 这 说 明 凝 视 姿势 的 概念 不 依赖 于 所 使 用 的 眼 跟 踪 技 术 。 


8.8 VEN IIR EM 


我 们 不 把 用 户 有 意 触 发 指令 时 的 凝视 作为 一 种 主动 输入 的 方式 ， 取 而 代 之 ， 我 们 可 能 把 
凝视 数据 作为 情境 信息 或 者 使 用 用 户 的 凝视 进行 隐 式 人 机 交互 。 计 算 机 利用 眼 动 仪 的 信息 来 
分 析 用 户 的 情况 和 发 生 的 活动 ， 并 根据 用 户 当 前 状态 来 调整 自身 行为 。 把 用 户 的 情况 考虑 到 
的 想法 追溯 到 1977 年 “4 。 自 那 时 起 ， 对 用 户 所 处 的 环境 和 情形 的 考虑 一 直 是 人 机 交互 研 
究 的 话题 ， 该 话题 被 称 为 “情境 感知 ”。 


8.8.1 活动 识别 


用 户 的 当前 活动 是 计算 机 交互 的 一 个 非常 重要 的 方面 。 因 此 能 否 根 据 用 户 的 眼 动 来 猜测 
该 用 户 的 活动 ， 是 个 很 有 趣 的 问题 。 
K 8. 3 和 表 8.4 展示 的 凝视 数据 是 来 自 人 们 看 视频 和 上 网 ， 如 平均 每 秒 进 行 的 扫 视 次 
数 、 平 均 扫 视 的 时 间 和 长 度 、 平 均 定 睛 时 间 。 
表 8.3 所 有 参与 者 (看 视频 ) 凝视 活动 参数 的 平均 值 
















































































视频 每 秒 扫 视 每 次 扫 视 的 像素 。” ”平均 扫 视 时 间 平均 定 睛 时 间 总 时 间 
单位 1/s 像素 ms ms s 
Pl 3. 68 101.9 67.8 204. 0 216.9 
P2 3. 43 87.2 69.3 221.9 219.2 
P3 3.45 94. 1 71.7 213.9 231.3 
P4 2.74 107.5 76.3 282.0 228. 3 
P5 3. 24 131.2 73.5 225. 6 216.6 
P6 2. 79 134. 1 99.1 259. 3 225.1 
P7 3. 49 102.0 73.9 212.5 217.4 
P8 2. 76 111.3 91.1 270. 6 219.9 
平均 值 3. 20 108.7 77.8 236. 2 221. 8 
标准 差 0. 38 16.6 11.2 29.8 





标准 差 /平均 值 11. 8% 15.3% 14.4% 12. 6% 
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表 8.4 所 有 参与 者 (LM) 凝视 活动 参数 的 平均 值 




















上 网 每 秒 扫 视 每 次 扫 视 的 像素 平均 扫 视 时 间 平均 定 睛 时 间 总 时 间 
单位 1/s 像素 ms ms s 
Pl 5. 36 73.0 44.9 141.5 234.0 
P2 5. 10 73.2 43.9 137.2 229. 4 
P3 4. 54 109. 4 70.3 150. 0 228.9 
P4 5.51 69.0 41.5 140. 0 229. 8 
P5 4. 58 105.9 70.2 145.6 291.1 
P6 4.59 106. 7 54.7 156. 0 264. 0 
P7 4.78 108. 0 66.0 143. 3 238. 2 
P8 3.17 123.3 104.5 177.1 374.7 
平均 值 4.70 96.1 62.0 148. 8 261.3 
标准 差 0. 72 20.9 20.9 12.9 
标准 差 /平均 值 15. 4% 21.8% 33. 7% 8. 6% 








这 是 统计 的 特性 ， 即 测量 值 也 会 不 同 。 因 此 我 们 必须 回答 这 个 问题 ， 即 两 个 表 中 的 平均 
值 不 同 是 偶然 造成 还 是 本 身 就 有 显著 的 不 同 。 这 个 问题 的 标准 回答 是 进行 t 检验, t 检验 显 
示 了 平均 值 的 不 同 是 偶然 造成 的 。 表 8. 5 显示 了 一 对 学 生 比 较 两 个 任务 的 t 检 验 的 值 。 相 差 
显著 的 值 是 每 秒 扫 视 次 数 和 平均 定 睛 时 间 。 

数据 结果 对 于 使 用 凝视 活动 来 感知 情境 而 言 是 个 好 消息 。 结 果 的 强 显著 性 证 明 凝 视 感知 
系统 能 够 很 好 地 猜测 用 户 的 活动 。 凝 视 活动 参数 个 体 差 异性 小 ， 让 我 们 完全 有 理由 期 待 活 动 
识别 只 需要 普遍 的 阔 值 就 能 正常 工作 ， 而 不 需要 为 个 人 用 户 做 调整 。 

8.5 “看 视频 ”和 “上 网 ”的 t 检验 
每 秒 扫 视 每 次 扫 视 的 像素 平均 扫 视 时 间 平均 定 睛 时 间 
t 检验 0. 00040 0. 13136 0. 05318 0. 00003 


起 初 ， 这 看 上 去 似乎 有 点 矛盾 。 人 们 在 观看 全 是 动作 的 视频 时 眼 动 比 上 网 浏览 静态 页 面 
时 眼 动 少 。 其 原因 在 于 在 阅读 的 过 程 中 ， 扫 视 和 短 时 间 的 定 睛 相间 。 阅 读 时 ， 有 眼球 尽 可 能 快 
地 移动 ， 但 看 电影 的 时 候 ， 眼 球 只 是 等 待 画面 出 现 。 

人 类 的 大 部 分 活动 都 涉及 眼 动 。Landl45] 描 述 日 常 活动 的 眼 动 ， 如 阅读 、 打 字 、 看 图 片 、 
绘画 、 开 车 、 打 乒乓 球 和 泡 茶 。 检 索 情 境 信息 意味 着 反 过 来 从 眼球 运动 到 活动 行为 。 使 用 这 
样 的 方法 ，Iqbal 和 Bailey 检测 凝视 模式 来 识别 用 户 的 任务 !s] 。 他 们 的 目标 是 建立 一 个 注意 
力 管理 设备 ， 通 过 识别 心理 负 蓓 来 在 用 户 的 任务 序列 中 减轻 破坏 性 影响 。 研 究 表 明 ， 每 一 个 
任务 一 一 阅读、 搜索 、 对 象 操作 和 数学 推理 一 一 都 有 独特 的 眼 动 轨迹 。 

用 平均 值 来 识别 活动 的 方法 很 简单 ， 而 超出 了 本 书 范围 的 更 复杂 的 数学 运算 可 以 从 凝视 
数据 中 获得 更 多 信息 。Bulling 等 人 描述 过 这 样 一 种 活动 识别 方法 ， 即 将 特征 选择 的 最 大 相 
关 最 小 元 余 算 法 (mRMR) 和 支持 向 量 机 (SVM) 分 类 器 相 结 合 的 识别 方法 [m1。 他 们 用 6 
个 不 同 的 活动 测试 他 们 的 系统 : 复制 文本 、 阅 读 印 刷 纸张 、 手 写 笔 记 、 观 看 视频 、 浏 览 网 页 
以 及 并 非 具 体 的 活动 。 他 们 记录 检测 精度 约 70% 。 
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活动 识别 的 方法 很 有 趣 ， 但 普遍 的 问题 是 ， 眼 动 的 分 析 可 以 告诉 用 户 过 去 的 任务 是 什 
么 ， 而 不 能 预测 该 用 户 将 要 干什么 。 提 供 分 析 所 需 的 数据 期 间 导 致 了 延迟 。 不 清楚 任务 识别 
工作 有 多 可 靠 , 最后， 不 需要 社会 智力 来 做 正确 的 决定 。 

活动 识别 的 路 径 很 有 趣 ， 但 其 普遍 问题 在 于 眼睛 运动 的 分 析 可 以 说 明 用 户 过 去 的 任务 ， 
但 却 不 能 预测 用 户 未 来 的 任务 。 提 供 分 析 所 需 数据 的 期 间 会 导致 延迟 。 同 时 ， 任 务 识别 的 可 

徘 性 暂 不 清楚 ， 最 后 ， 做 出 正确 决定 所 需 的 社交 智能 概念 并 不 存在 。 


8. 8.2 阅读 检测 


阅读 是 我 们 常 做 的 特定 活动 ， 在 与 计算 机 设备 交互 的 情况 下 尤其 常见 。 阅 读 时 的 眼 动 在 
ee ee te et 
引用 法 语词 “saccade ( 扫 视 ) ”来 表达 眼睛 的 突 发 运动 。 心 理学 家 对 于 阅读 过 程 有 过 深刻 人 研 
究 ， 对 其 细节 理解 深入 1*]。 

很 多 情况 下 ， 尤 其 是 在 上 网 时 ， 人 们 通常 不 会 仔细 阅读 ， 而 且 常 常 不 会 完整 阅读 文本 。 
Jakob Nielsen 对 几 百 个 受 试 者 进行 过 大 型 阅读 网 页 习惯 调查 。 他 利用 热度 图 视觉 化 了 眼睛 凝 
视 活 动 ， 发 现 大 多 数 热度 图 旺 “F” 形 状 。 这 意味 着 读者 常常 只 读 开 始 几 行 。 鉴 于 此 ， 网 页 
应 当 将 重要 事情 放 在 开始 儿 行 。 

对 阅读 的 凝视 分 析 对 于 寻找 交互 的 设计 规则 很 有 启发 。 然 而 ， 若 分 析 是 实时 进行 ， 则 对 
用 户 更 有 利 。 例 如 ， 知 系统 了 解 用 户 正 在 阅读 ， 就 可 以 停止 显示 分 心 的 动漫 ， 并 延迟 扰 人 的 
通知 。 参 考 文献 [49-51] 中 对 于 阅读 检测 推荐 了 数 种 算法 。 

阅读 检测 大 体 上 不 算 太 难 。 一 系列 的 前 向 扫 视 和 随后 的 一 个 后 向 扫 视 是 阅读 活动 的 有 力 
指示 。 上 一 章 介绍 的 姿势 识别 算法 ， 在 有 人 阅读 时 ， 会 产 出 RLRLRL 姿势 。 阅 读 检 测 的 问题 
在 于 延迟 和 可 靠 度 。 阅 读 检测 器 需要 几 次 扫 视 作为 输入 ， 来 知道 用 户 在 阅读 ， 因 此 在 用 户 刚 




































































开始 阅读 时 无 法 检测 用 户 开 始 阅 读 。 因 此 ， 阅 读 检测 本 
在 检测 短篇 或 单行 文本 的 阅读 时 有 问题 。 阅 读 检测 可 Te 
i 


能 在 用 户 做 其 他 事情 的 时 候 ， 显 示 在 做 阅读 活动 。 例 Ms 
如 ， 这 种 情况 会 出 现在 看 群体 照片 中 人 们 头 部 的 时 <= BRET not eveken 
候 ， 因 为 这 时 的 凝视 姿势 与 阅读 时 相似 。 

检测 阅读 活动 是 有 用 的 ， 但 若 系统 可 以 知晓 阅读 
内 容 ， 则 帮助 更 大 。 对 此 ， 值 得 对 阅读 时 的 凝视 进行 
更 仔细 的 了 解 。 图 8. 17 所 示 为 阅读 文本 时 的 凝视 
路 径 。 

很 容易 看 到 ， 扫 视 期 间 的 凝视 会 有 短暂 的 定 睛 。 
有 时 会 有 回 看 ， 尤 其 是 在 看 困难 的 文本 时 。 数 据 分 析 
得 出 的 扫 视 长 度 大 约 在 每 行 1*， 而 后 向 扫 视 长 度 比 
一 行 长 度 略 短 。 前 向 扫 视 的 角度 与 中 央 凹 的 角度 相 
同 ， 这 很 合理 ， 因 为 这 意味 着 对 这 一 行 的 覆盖 是 最 优 ”图 8.17 阅读 文本 时 的 凝视 路 径 
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的 ， 既 没有 空缺 也 没有 重复 。 因 此 ， 要 注意 一 个 有 趣 的 现象 : 一 行 中 的 第 一 批 定 睛 点 大 约 在 
第 一 行 开始 后 半 度 ， 而 最 后 的 定 睛 与 这 一 行 末 尾 也 是 同样 距离 。 在 垂直 方位 ， 低 精度 导致 的 
问题 是 ， 如 果 行 高 在 正常 范围 内 ， 则 无 法 准确 测 出 凝视 阅读 哪 一 行 。 图 8. 17 中 的 行 高 大 约 
是 0.5°。 

很 多 职业 都 需要 读 许 多 很 长 的 文件 。 智 能 系统 能 够 掌握 文档 的 阅读 情况 ， 并 将 这 个 信息 
送 给 用 户 。 这 便 提出 了 如 何 将 凝视 活动 转 成 说 明文 档 阅 读 情况 的 数字 。 

参考 文献 [52] 中 呈现 的 想法 就 是 将 虚拟 单元 装 满 到 文本 中 去 。 算 法 可 以 计算 每 个 单 
元 中 的 定 睛 次 数 。 某 文档 中 定 睛 的 总 次 数 提供 有 用 信息 ,但 是 却 无 法 显示 文档 是 否 已 经 读 
完 ， 或 文档 的 1/3 已 经 读 过 3 遍 。 因 此 ， 一 个 数字 不 能 够 对 文档 阅读 情况 提供 较 好 指示 。 
需要 获得 第 二 个 值 ， 才 能 指示 出 定 睛 在 整个 文本 中 的 分 布 。 

第 二 个 值 的 一 个 可 能 定义 是 单元 内 定 睛 方差 。 低 方差 表明 凝视 在 文本 中 均匀 分 布 。 男 一 
种 可 能 的 定义 是 文本 内 视线 扫 过 的 单元 的 百分比 。 用 这 个 值 来 描述 文件 是 否 被 完全 阅读 ， 是 
很 容易 被 人 理解 的 。 但 它 不 提供 是 否 该 文件 被 阅读 数 次 的 信息 。 

阅读 质量 的 值 对 查找 未 读 文档 很 有 帮助 。 文 档 本 身 也 能 就 凝视 数据 提供 反 饿 。 例 如 ， 文 
档 可 以 把 已 经 阅读 过 的 文档 用 不 同 的 背景 颜色 在 显示 屏 上 显示 。 

阅读 检测 是 眼睛 凝视 情境 信息 并 不 简单 也 不 太 模 糊 的 一 个 例子 。 当 我 们 从 心理 学 的 角度 
上 看 精心 制作 的 阅读 模型 [%] ， 我 们 就 能 清晰 地 看 到 阅读 检测 的 潜力 。 阅 读 速度 、 向 后 扫 视 
次 数 和 阅读 困难 文字 所 需 的 时 间 ， 这 些 都 有 可 能 让 我 们 得 到 用 户 的 阅读 能 力 的 信息 。 通 过 用 
不 同 的 语言 或 脚本 显示 文本 ， 可 以 找 出 用 户 使 用 什么 语言 阅读 。 网 上 书店 以 后 推荐 书目 的 时 
候 可 以 使 用 这 些 信 息 。 这 里 肯定 还 有 留待 进一步 研究 的 空间 。 


8. 8.3 注意 力 检测 


使 用 凝视 情境 信息 最 明显 的 方法 就 是 凝视 作为 注意 力 的 指标 。 在 大 多 数 情 况 下 ， 我 们 看 
我 们 关注 的 对 象 。 这 听 起 来 可 能 微不足道 ， 但 注意 力 是 非常 强大 的 情境 信息 ， 它 可 以 为 用 户 
提供 真正 的 好 处 。 电 子 设备 如 台式 计算 机 或 移动 电话 的 显示 带 给 用 户 提供 信息 。 然 而 ， 当 用 
户 不 看 屏幕 的 时 候 ， 就 没有 必要 显示 信息 。 现 在 ， 系 统 通 常 不 能 感知 用 户 的 注意 力 ， 它 们 会 
在 用 户 离开 的 时 候 推 送 很 重要 的 信息 。 然 而 当 用 户 返 回 时 ， 该 信息 可 能 已 经 被 下 一 条 信息 覆 
盖 。 当 用 户 的 注意 力 回 到 系统 的 时 候 ， 注 意 力 感知 系统 和 有 眼 动 仪 一 起 可 以 告诉 用 户 刚刚 发 生 
的 事情 的 概况 。 

记录 用 户 的 注意 力 ， 为 她 或 他 在 特定 的 文件 上 花 了 多 少时 间 提 供 了 可 靠 的 数据 。 文 件 
被 显示 的 时 间 是 不 可 靠 的 ， 因 为 用 户 可 以 打开 文档 ， 然 后 离开 去 拿 咖 啡 。 关 于 哪个 文件 
人 花 了 多 少时 间 的 统计 数据 是 非常 有 用 的 。 工 作 的 时 候 ， 有 人 要 做 几 个 项 目 ， 有 必要 计算 
出 每 个 项 目的 成 本 ,这 意味 着 需要 知道 每 个 项 目 花 费 多 少时 间 。 这 样 的 统计 数据 也 可 用 
于 电子 学 习 。 
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8.8.4 WARM 


凝视 对 人 类 互相 交流 而 言 非常 重要 。 如 果 我 们 想 要 计算 机 很 好 地 协助 我 们 ,计算 机 必须 
知道 我 们 正在 看 的 是 什么 。 然 而 ， 诠 释 凝 视 是 很 困难 的 ， 因 为 即使 是 人 类 也 不 能 总 是 从 别人 
的 腿 中 读 出 别人 的 期 望 。 正 确 解读 凝视 的 方式 需要 社会 智力 ， 而 在 计算 机 上 不 容易 实现 
这 点 。 

然而 在 许多 情况 下 ， 简 单 的 方法 可 以 给 用 户 带 来 好 处 。 如 果 有 人 在 看 ， 显 示 屏 就 会 自动 
开启 ， 当 没有 人 看 的 时 候 ， 显 示 屏 就 会 自动 关闭。 这 不 仅 是 为 了 方便 用 户 ,， 还 可 以 节省 电 
E, 移动 设备 的 电量 都 是 有 限 的 。 男 一 个 例子 是 ， 如 果 系 统 识别 出 计算 机 显示 的 消息 已 被 阅 
读 ， 鼠 标 不 点 击 的 话 ， 该 消息 就 可 能 会 消失 。 

另 一 个 例子 是 由 Kem 等 人 1 介绍 的 凝视 标识 。 当 我 们 看 向 其 他 地 方 又 要 看 回 原来 位 置 
的 时 候 ， 雍 视 标 识 就 是 我 们 放 在 地 图 上 或 者 是 文档 中 的 手指 的 蔡 代 。 雍 视 标 识 是 一 个 视觉 占 
位 符 ， 突 出 我 们 在 显示 屏 上 看 的 最 后 一 个 位 置 。 凝视 标识 在 多 显示 品 的 情况 下 很 有 帮助 ， 或 
者 是 我 们 需要 在 显示 屏 和 实体 文件 中 转换 注意 力 的 时 候 也 很 有 帮助 。 凝 视 标 识 在 汽车 中 的 用 
户 界面 也 许 会 更 有 用 ， 我 们 与 导航 系统 的 交互 可 能 会 被 交通 情况 中 断 。 因 为 汽车 移动 时 ， 导 
航 系统 显示 的 内 容 可 能 会 发 生 改 变 ， 这 意味 着 我 们 重新 看 向 显示 屏 的 时 候 需 要 一 些 时 间 找 到 
新 方向 。 在 这 种 情况 下 ， 凝 视 标 识 必须 随 着 地 图 移动 ， 不 能 一 直 固定 在 显示 屏 上 。 由 于 我 们 
的 注意 力 应 该 主要 集中 在 各 驶 汽车 上 ， 如 果 能 更 快 地 在 界面 上 找到 定位 并 且 交 互 的 时 间 更 
短 ， 这 将 是 一 个 很 大 的 优势 。 

上 述 例 子 清楚 地 表明 ， 凝 视界 面 不 仅 是 指挥 计算 机 的 一 种 可 行 方式 ， 也 有 很 大 的 潜力 成 
为 一 种 新 型 的 辅助 系统 。 























































































































8.9 展望 








正如 在 引言 中 所 提 到 的 ， 有 许多 原因 证 明 把 视线 作为 交互 方法 是 可 取 的 。 如 果 我 们 想 要 
使 用 与 人 类 相似 的 方式 进行 交互 的 计算 机 设备 ， 特 别 是 对 于 类 人 的 机 器 人 人， 那么 眼 跟 踪 技 术 
是 必需 的 。 

纵 观 20 年 以 来 的 眼 跟 踪 研 究 ， 似 乎 我 们 期 待 利用 视线 信息 的 方式 随 着 时 间 发 生 了 改变 。 
早期 的 研究 主要 集中 在 用 视线 来 操作 图 形 用 户 界面 ， 目 前 的 重点 似乎 是 视线 感知 的 应 用 
程序 。 

凝视 指向 有 一 定 的 困难 要 克服 一 一 点 石 成 金 问题 、 精 度 问 题 和 需要 校准 的 问题 。 当 处 理 
文字 或 电子 表格 应 用 程序 ， 又 或 者 操作 自动 柜员 机 时 ， 我 们 并 不 需要 眼 交 互 的 速度 优势 。 少 
数 情况 下 ， 如 玩 射 击 游戏 或 军事 上 类 似 的 射击 活动 ， 我 们 需要 速度 。 大 众 市 场 的 眼 动 仪 硬件 
最 有 可 能 作为 游戏 机 的 附加 产品 。 

只 要 有 廉价 的 眼 动 仪 ， 我 们 可 以 期 待 游 戏 领域 以 外 的 进一步 应 用 。 然 而 ， 我 们 用 眼 动 仪 
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完全 蔡 代 如 今 的 鼠标 操作 ， 完 成 来 操作 图 形 用 户 界 面 ， 却 似乎 不 可 能 。 
腿 动 仪 似乎 给 予 我 们 更 多 的 功能 来 使 系统 更 加 智能 。 眼 动 仪 可 以 通过 定位 多 显示 器 中 的 
鼠标 指针 来 协助 我 们 ; 它 可 以 跟踪 和 记录 我 们 的 眼球 活动 ， 并 且 能 告诉 我 们 已 经 读 了 哪个 文 
件 或 者 文件 的 哪 部 分 ; 当 我 们 阅读 文本 时 ， 数 字 百 科 全 书 的 动画 形象 可 能 会 暂停 。 




















最 近 几 年 我 们 与 移动 设备 的 交互 急剧 增加 。 移 动 设 备用 于 眼 跟踪 有 两 种 选择 。 一 种 选择 
是 放置 在 移动 设备 中 的 眼 动 仪 。 这 样 的 眼 动 仪 面临 的 挑战 是 对 手 部 动作 和 不 断 变化 的 光线 条 


件 的 补偿 。 另 一 种 选择 是 头 戴 式 眼 动 仪 。 头 戴 式 眼 动 仪 似乎 更 容易 实现 ,但 肯定 是 很 突 无 
































的 。 然 而 ， 与 眼镜 式 的 增强 现实 显示 相 结 合 是 有 意义 的 。 
视觉 和 操作 界面 之 间 可 能 存在 冲突 的 基本 问题 在 移动 计算 领域 中 特别 严重 。 这 可 能 也 会 
与 我 们 的 社交 礼仪 相 冲 罕 。 社 交 礼 仪 要 求 我 们 直接 把 凝视 对 准 正在 和 我 们 谈话 的 人 。 移 动 计 
算 对 不 用 手 控制 设备 有 很 强 的 要 求 。 语 音 命令 是 我 们 的 一 个 选择 ， 但 社交 礼仪 在 很 多 情况 不 
允许 使 用 语音 。 凝 视 控制 不 需要 手 ， 并 且 是 无 声 的 。 也 许 凝 视 姿势 在 增强 现实 显示 的 切换 模 
式 上 很 有 和 用， 如 开启 或 关闭 显示 屏 。 
在 把 腿 动 仪 作为 界面 技术 介绍 给 大 众 的 前 一 步 似乎 是 介绍 注意 力 传感器 。 注 意 力 传 感 咒 
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感知 已 经 存在 。 
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9.1 引言 





自从 Bolt 发 表 了 开创 性 的 论文 《Put that there; Voice and Gesture at the Graphics Inter- 
face》， 可 用 于 计算 机 应 用 程序 交互 的 多 模 态 输入 就 成 为 了 人 机 交互 研究 的 一 个 活跃 领域 1。 
这 种 不 同形 式 的 输入 组 合 ( 例 如, 语音、 手势 、 触 措 和 了 眼睛 凝视 ) 被 称 为 多 模 态 交 互 模式 ， 
其 目标 是 向 用 户 提供 与 计算 机 进行 交互 的 多 种 选择 方式 ， 以 支持 自然 的 用 户 体验 。 这 些 方 式 
可 以 帮助 简化 界面 ， 以 便 在 使 用 识别 技术 时 能 有 更 稳定 的 输入 ， 以 及 支 持 更 通 真 的 交互 场 
景 ， 因 为 界面 可 以 更 精妙 地 协调 人 类 通信 系统 。 从 理论 的 角度 看 ， 多 模 态 界面 以 协调 的 方式 
处 理 两 个 或 更 多 个 输入 模式 ， 其 目的 是 识别 天 然 形成 的 人 类 语言 和 行为 ， 一 般 包 括 一 个 以 上 
的 识别 技术 。 

随 着 更 强大 的 感知 计算 技术 的 出 现 ， 多 模 态 界面 因为 可 以 被 动 地 感知 用 户 正 在 做 的 事情 
而 变 得 更 加 突出 。 这 些 界面 也 被 称 为 感知 用 户 界面 8] ， 它 们 的 传感器 装置 在 物理 环境 中 而 
不 是 在 用 户 刁 上 ， 因 而 提供 了 支持 非 侵 入 的 交互 机 制 。 本 书 前 面 草 节 已 经 重点 介绍 了 各 种 输 
入 技术 和 相关 的 交互 模 态 。 在 本 章 中 ， 我 们 将 研究 如 何 将 这 些 不 同 的 技术 以 及 它们 的 输入 模 
式 一 一 特别 是 语音 、 手 势 、 触 摸 、 眼 睛 凝视 、 面 部 表情 和 脑 机 输入 一 一 结合 一 体 及 其 所 能 提 
供 的 交互 类 型 。 我 们 也 将 研究 综合 这 些 输 入 模式 的 策略 ， 也 被 称 为 多 模 态 整合 或 融合 。 最 
后 ， 我 们 将 探讨 一 些 多 模 态 界面 的 可 用 性 问题 和 处 理 这 些 问 题 的 方法 。 研 究 多 模 态 界面 跨越 
多 个 领域 ， 包 括 心理 学 、 认 知 科 学 、 软 件 工程 学 和 人 机 交互 等 。 

本 章 的 重点 将 是 使 用 多 模 态 输入 的 界面 类 型 。 更 全 面 的 调查 详 见 参考 文献 [5，6] 。 













































































9.2 ”多 模 态 交 互 类 型 











相 比 传统 的 单一 界面 ， 多 模 态 界面 可 以 被 定义 为 多 个 输入 模 态 的 组 合 ， 以 提供 给 用 户 更 


238 ”实感 交互 : 人 工 智能 下 的 人 机 交互 技术 


丰富 的 交互 集 。 输 入 模 态 的 组 合 可 以 分 为 6 种 基本 类 型 互补 型 、 重 复 型 、 等 价 型 、 专 业 
型 、 并 发 型 以 及 转化 型 [1 。 在 本 节 中 ， 我 们 将 逐一 对 其 做 简要 定义 : 

。 互补 型 : 当 两 个 或 多 个 输入 模 态 联 合 发 出 一 个 命令 时 ， 它 们 便 会 相得益彰 。 例 如 ， 
为 了 实例 化 一 个 虚拟 对 象 ， 用 户 做 出 指示 手势 ， 然 后 说 话 。 语 音 和 手势 相 得 益 彩 ， 因 为 手势 
提供 了 在 哪里 放置 对 象 的 信息 ， 而 语音 命令 则 提供 了 放置 什么 类 型 的 对 象 的 信息 。 

。 重复 型 ， 当 两 个 或 多 个 输入 模 态 同时 向 某 个 应 用 程序 发 送信 息 时 ， 它 们 的 输入 模 态 
是 元 余 的 。 通 过 让 每 个 模 态 发 出 相同 的 命令 ， 多 重 的 信息 可 以 帮助 解决 识别 错误 的 问题 ， 并 
加 强 系统 需要 执行 的 操作 !] 。 例 如 ， 用 户 发 出 一 个 语音 命令 来 创建 一 个 可 视 化 工具 ， 同 时 
也 做 一 个 手势 表示 该 工具 的 创建 。 当 提供 多 于 一 个 的 输入 流 时 ， 该 系统 便 有 更 好 的 机 会 来 识 
别 用 户 的 预期 行为 。 

。 等 价 型 : 当 用 户 具 有 使 用 多 个 模 态 的 选择 时 ， 两 个 或 多 个 输入 模 态 是 等 价 的 。 例 如 ， 
用 户 可 以 通过 发 出 一 个 语音 命令 ， 或 从 一 个 虚拟 的 调 色 板 中 选择 对 象 来 创建 一 个 虚拟 对 象 。 
这 两 种 模 态 呈现 的 是 等 效 的 交互 ， 且 最 终 的 结果 是 相同 的 。 用 户 也 可 以 根据 自己 偏好 (他 
们 只 喜欢 在 虚拟 调 色 板 上 使 用 语音 输入 ) 或 规避 (语音 识别 不 够 准确 ， 因 此 他 们 改 用 调 色 
板 ) 来 选择 使 用 的 方式 。 

。 专业 型 : 当 某 一 个 模 态 总 是 用 于 一 个 特定 的 任务 时 它 就 成 了 专业 的 模 态 ， 因 为 它 是 
比较 适合 该 任务 的 ， 或 者 说 对 于 该 任务 来 说 它 是 当仁不让 的 了 。 例 如 ， 用 户 希 望 在 虚拟 环境 
中 创建 和 放置 一 个 对 象 。 对 于 这 个 特定 的 任务 ， 做 出 一 个 指向 的 手势 确定 物体 的 位 置 是 极 具 
意义 的 ， 因 为 对 于 放置 物体 可 能 使 用 的 语音 命令 范围 太 广 ， 并 且 一 个 语音 命令 无 法 达到 对 象 
放置 任务 的 特定 性 。 

。 并 发 型 : 当 两 个 或 者 两 个 以 上 的 输入 模 态 在 同一 时 间 发 出 不 同 的 命令 时 ， 它 们 是 并 
发 的 。 例 如 ， 用 户 在 虚拟 环境 用 手势 来 导航 ， 与 此 同时 ， 使 用 语音 命令 在 该 环境 中 询问 关于 
对 象 的 问题 。 并 发 型 让 用 户 可 以 发 出 并 行 指令 ， 其 体现 为 在 做 晚餐 的 同时 也 可 打 电 话 这 样 的 
真实 世界 的 任务 。 

o 转化 型 : 当 两 个 输入 模 态 分 别 从 对 方 获取 到 信息 时 它们 就 会 将 信息 转化 ， 并 使 用 此 
言 息 来 完成 一 个 给 定 的 任务 。 多 模 态 交互 转化 的 最 佳 例 子 之 一 是 在 多 模 态 交互 的 一 键 通话 界 
面 里 "1 ， 语 音 模 态 从 一 个 手势 动作 获得 信息 ， 告 诉 它 应 激活 通话 。 


















































9.3 ”多 模 态 界面 


本 节 中 ,我们 研究 在 本 书 中 讨论 过 的 不 同 的 技术 和 输入 模 态 是 怎样 被 用 作 多 模 态 交互 系 
统 的 一 部 分 。 需 要 注意 的 是 ， 尽 管 语 音 输入 是 多 模 态 界面 的 主要 方式 ， 但 我 们 在 本 章 中 没有 
专门 介绍 语音 部 分 。 相 反 ， 语 音 是 作为 每 种 模 态 的 一 个 子 部 分 。 


9.3.1 触 控 输入 
近年 来 ， 随 着 多 点 触 控 手机 、 平 板 电脑 、 笔 记 本 电脑 、 桌 面 电脑 和 显示 屏 等 的 日 益 普 
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及 ， 多 点 触 控 设备 变 得 越 来 越 普遍 。 因 此 ， 多 点 触 控 手 势 成 为 用 户 的 日 常 词汇 的 一 部 分 ， 如 
滑动 解锁 或 缩放 屏幕 。 然 而 ， 复 杂 的 任务 ， 如 3D 建 模 或 图 像 编辑 ， 单 独 使 用 多 点 触 控 输入 
是 很 困难 的 。 多 模 态 交互 技术 的 设计 能 将 多 点 触 控 界 面 与 其 他 输入 融合 ， 如 语音 ， 为 复杂 任 
务 创建 了 更 直观 的 交互 。 

9.3.1.1 3D 建 模 和 设计 

大 型 多 点 触 控 显示 器 和 桌面 电脑 常常 被 营销 成 能 够 促进 协作 的 自然 界面 。 然 而 ， 这 些 产 
品 往往 针对 在 公共 环境 中 的 商业 客户 ， 并 作为 一 个 新 奇 物件 作为 宣传 。 因 此 现在 的 问题 仍然 
是 ， 它 们 是 否 能 在 具有 有 效 性 的 同时 也 提供 独特 的 用 户 体验 。 由 于 鼠标 和 键盘 都 不 再 可 用 ， 
语音 可 以 为 之 前 应 用 的 WIMP 范式 提供 操作 环境 ， 如 复杂 的 工程 应 用 程序 (例如 ，Auto 
CAD) 。 例 如 ，MozArt 公司 中 结合 了 语音 命令 与 可 倾斜 的 多 点 触 控 桌 面 ,创建 了 一 个 可 以 
创造 3D 模型 的 简易 界面 ， 如 图 9. 1 所 示 。 一 项 研究 对 MozArt 公司 的 产品 进行 了 评估 ， 让 新 
手 使 用 MozArt 和 男 一 个 多 点 触 控 的 CAD 软件 ， 并 进行 了 比较 。 大 多 数 用 户 优选 的 是 多 模 态 
界面 ， 尽管 该 结论 需要 更 多 的 用 户 进 行 测试 才能 考量 其 准确 性 和 有 效 性 。 类 似 的 界面 可 以 通 
过 结合 语音 和 触摸 来 改善 ， 正 如 在 一 项 关于 用 单一 多 点 触 控 界面 执行 3D CAD 操作 的 项 目 中 
所 提 到 的 一 样 [11]。 
































图 9.1 MozArt 公司 桌面 硬件 原型 。 来 源 ，Sharma A, Madhvanath S, 
Shekhawat A and Billinghurst M 2011 。 经 授权 转载 








9.3.1.2 协作 

大 型 多 点 触 控 显示 器 以 及 桌面 电脑 用 于 协作 是 最 为 理想 的 ， 原因 是 它们 有 360° 触 控 界 
面 ， 即 一 个 大 型 显示 屏 桌 面 ， 并 且 它 们 也 支持 多 种 输入 源 。 举 个 例子 ，Tse 等 人 (2008 ) 117! 
开发 出 了 一 个 名 为 “设计 师 环境 ”的 多 模 态 多 点 触 控 系统 ， 该 系统 能 通过 用 户 手 势 或 语音 
发 出 指令 控制 一 个 设计 应 用 。 它 是 基于 工业 设计 师 常 用 于 头脑 风暴 的 KJ 创意 方法 ， 该 方法 
有 以 下 四 个 步 又 : 

1) 创建 笔记 。 

2) 小 组 笔记 。 

3) 标记 各 组 。 

4) 关联 各 组 。 

在 “设计 师 环 境 ” 这 一 应 用 中 ， 多 个 用 户 可 运用 触 控 结合 手势 和 语音 输入 指令 完成 各 
种 任务 ， 如 图 9.3 所 示 。 然 而 ，Tse ÆA (2008) P 发现， 这 一 应 用 仍 有 一 些 未 解决 的 问 











240 “实感 交互 : 人工 智能 下 的 人 机 交互 技术 


题 ， 如 并 行 工 作 、 模 态 转换 、 个 人 及 集体 领域 , 还 有 联合 多 模 态 指令 等 。Tse 等 人 对 这 些 问 
题 提 出 了 相应 对 策 ， 如 在 桌面 创建 个 人 工作 区 域 来 解决 并 行 工 作 问题 。 

Tse 等 人 (2006)1531 也 曾经 开发 了 GSI Demo (演示 创建 手势 与 语音 基础 结构 系统 ) 。 这 
一 系统 通过 在 已 有 的 鼠标 /键盘 应 用 上 创建 多 用 户 语音 或 手势 输入 包装 器 ， 演 示 了 多 模 态 交 
H., GSI Demo 能 够 有 效 将 单一 用 户 桌 面 应 用 转化 成 多 点 触 控 桌 上 应 用 ， 例 如 地 图 、 指 令 与 
控制 模拟 器 、 模 拟 与 训练 、 游 戏 等 。Tse 等 人 (2007) HA 特别 讨论 了 使 用 这 一 多 点 触 控 桌 面 
系统 ， 用 户 可 以 协作 共同 玩 暴 雪 公 司 的 魔兽 世界 3 和 模拟 人 生 游戏 。 他 们 提出 的 界面 允许 玩 
家 使 用 手势 或 语音 输入 指令 创造 一 种 全 新 的 多 人 参与 的 体验 ， 更 接近 街机 游戏 对 人 们 社会 需 
求 的 满足 ， 如 图 9. 2 所 示 。 












ca 


图 9.2 两 人 在 魔兽 世界 3 (ER) 及 模拟 人 生 游戏 AR) 中 互动 
来 源 : Tse E, Greenberg S, Shen C, Forlines C and Kodama R 2008。 授 权 转 载 





























协作 情境 还 有 另 一 个 有 趣 的 一 
面 ， 那 就 是 可 追溯 成 员 在 协作 过 程 中 
的 行为 和 言语 。 协 作 数 据 清楚 揭示 了 
学 习 和 协作 的 过 程 。 这 类 数据 也 可 作 
为 机 器 学 习 以 及 数据 挖 扬 算 法 的 输 
入 , 以 提供 应 景 的 反馈 及 个 性 化 
内 容 。 

“Collaid (协作 学 习 辅 助 )” 在 桌 
面 学 习 活动 中 是 一 个 捕 提 多 模 态 数据 
的 环境 051 。 数 据 收集 时 使 用 了 一 组 
麦克 风 和 一 个 传感器 ， 与 学 习 系统 中 
其 他 部 分 形成 了 一 个 整体 ， 最 后 经 过 
转化 ， 桌 面 协作 过 程 被 转化 成 为 可 视 
过 程 ， 展 现 了 正在 桌 边 发 生 的 协作 过 
程 。 图 9.4 是 一 个 协作 小 组 和 另 一 个 
协作 较 少 的 小 组 之 间 的 对 比 数据 可 视 化 实例 。 其 他 运用 分 布 式 白板 进行 多 模 态 协 作 的 研究 可 
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图 9.3 在 “设计 师 环境 ”中 的 两 人 组 合 手势 。 来 源 : 
Tse E, Green -berg S, Shen C and Forlines C 2007。 授 权 转 载 








见 参考 文献 【16 ] 。 
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图 9.4 一 个 交流 频繁 的 小 组 ( 左 
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图 ) 以 及 一 个 协作 较 少 的 小 组 〈 右 图 ) 12min 活动 的 协作 可 视 化 





来 源 : Martinez - Maldonado R, Collins A, Kay J and Yacef K 2011。 授 权 转 载 


9.3.1.3 与 残疾 或 老年 病人 交流 


多 模 态 桌面 应 用 也 能 支持 
与 听力 残障 病 患 交流 的 功 
BE, HHR- ERRER, 
通过 转录 语音 可 以 增进 医生 与 
老年 患者 的 交流 [81。 这 个 
“共享 语音 界面 ” (SSI) 是 为 
多 点 触 控 桌 面 显示 需 开 发 的 一 
项 应 用 ， 用 于 支持 听力 残障 病 
人 与 不 会 手语 的 听力 复 健 医生 
之 间 的 交流 。 上 听力 残障 的 病人 
只 需 敲 敲 键盘 ， 听 力 复 健 医生 
对 着 耳机 上 的 耳麦 说 话 。 两 人 
交流 时 ,他们 的 话语 会 被 转 











录 ， 然 后 以 可 移动 的 对 话 框 的 
形式 出 现在 显示 屏 上 ， 如 图 
9.5 所 示 。 多 模 态 界面 技术 还 
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A AA j 
9.5 一 位 医生 (图 左 侧 ) 和 病人 (KHAM) 在 用 “共享 语音 界面 
(SST) ”交流 。 同 时 可 移动 的 对 话 框 出 现在 多 点 触 控 屏 幕 上 。 
来 源 : Piper AM 2010。 经 Anne - Marie Piper 授权 转载 
































可 以 造福 其 他 有 不 同 交流 需求 的 人 群 。 例 如 ， 一 位 学 外 语 的 学 生 可 以 一 边 听 到 教师 念 词组 的 
音频 片段 ， 一 边 可 以 获取 其 听 到 的 语音 表述 的 文字 。 
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9.3.1.4 移动 设备 搜索 

移动 设备 用 户 现 在 越 来 越 精通 他 们 设备 的 使 用 ， 他 们 和 希望 在 执行 多 个 任务 或 奔忙 之 时 能 
用 到 移动 设备 ， 像 是 开车 或 是 想 快 速 寻 找 资 讯 的 时 候 。 另 外 ， 现 有 的 移动 设备 包含 了 广泛 的 
输入 技术 ， 例 如 多 点 触 探 界面、 麦克风、 摄像 头 和 全 球 定位 系统 ， 还 有 加 速 计 。 移 动 设备 应 
用 需要 利用 多 种 输入 模 态 ， 可 以 不 要 求 用 户 停 下 手中 的 事情 ， 而 在 用 户 繁忙 之 时 能 够 快捷 地 
输入 输出 信息 。 

移动 设备 也 面临 着 挑战 ， 如 数据 转化 更 缓慢 了 ， 显 示 屏 和 键盘 更 小 了 ， 因 此 它们 也 在 开 
发 自己 的 应 用 ， 使 桌面 范式 不 再 适合 了 。 有 人 认为 语音 输入 能 轻易 解决 这 些 问 题 ， 然 而 单纯 
运用 语音 输入 是 不 现实 的 ， 因 为 语音 识别 容易 出 错 ， 尤 其 在 嗜 杂 环境 下 ， 它 不 能 提供 精确 的 
控制 。 许 多 多 模 态 移动 界面 在 不 断 涌现 ,它们 运用 了 语音 输入 并 巧妙 结合 了 其 他 交互 形式 。 
例如 ,语音 输入 可 以 利用 语言 为 操作 提供 语 境 信息 ， 而 把 精确 的 控制 问题 交 给 直接 的 触 控 输 
和 人 模式。 或 者 语音 输入 可 与 文本 录入 同时 进行 ， 以 保证 录入 文本 的 正确 性 。 

语音 输入 是 移动 设备 搜索 的 一 个 理想 输入 形式 ， 快 捷 又 便利 。 然 而 ， 由 于 语音 输入 容易 
出 错 ， 校 正 工 作 也 应 快捷 方便 。“ 声 音 搜索 系统 ”为 移动 设备 的 搜索 功能 提供 多 模 态 校 
正 上 9] 。 用 户 说 出 查询 内 容 之 后 ， 系 统 会 根据 查询 内 容 给 出 识别 结果 的 多 元 最 佳 列 表 (N - 
best list) 。 多 元 最 佳 搜索 结果 由 字 板 组 成 ， 这 一 字 板 让 用 户 能 根据 搜索 结果 ， 运 用 触 控 输入 
的 方式 轻松 地 重新 排列 并 查询 新 内 容 。 

移动 设备 搜索 还 包括 局 部 搜索 ， 这 一 搜索 方式 在 现 有 的 移动 设备 技术 中 让 用 户 非常 满 
意 ， 它 可 以 将 搜索 范围 限定 在 当前 位 置 。“ 搜 话 (Speak4it)” 就 是 一 款 改 进 了 语音 搜索 的 移 
动 设备 应 用 ， 它 让 用 户 用 手指 在 他 们 想 查 询 的 位 置 上 书写 [20] 。“ 搜 话 (Speak4it) ”支持 多 
模 态 输入 法 ， 用 户 可 以 用 语音 或 打字 的 方式 输入 搜索 条 件 ， 在 想 要 查询 的 位 置 用 触 控 输 入 法 
轻 划 。 一 个 “ 搜 话 (Speak4it)” 的 语 境 范例 就 是 骑 行 者 可 以 用 语音 或 手势 搜索 路 上 最 近 的 
修 车 行 ， 得 到 更 为 精确 的 搜索 结果 。 例 如 ， 可 以 用 语音 输入 查询 : “斯 泰 弗 森 特 镇 修 自行 车 
的 商铺 ”， 再 在 显示 屏 上 画 下 一 条 路 ， 该 应 用 就 会 给 出 反馈 ， 告 知 显示 屏 上 标记 的 这 一 路 段 
上 的 各 个 搜索 结果 ( 见 图 9.6)。 
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KI9.6 “ 搜 话 (Speak4it) ”手势 输入 。 经 Patrick Ehlen 授权 转载 
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具备 这 些 能 力 的 研究 技术 原型 已 经 存在 多 年 ， 如 QuickSet!?") 。 然 而 ， 这 些 技术 却 是 在 
能 用 触摸 屏 输入 、 能 进行 语音 识别 、 能 上 网 的 移动 设备 被 广泛 使 用 之 后 才 进 入 普通 用 户 的 视 
野 。 男 外 Ramsay 等 人 (2012) 的 “火车 系统 (Tilt and Go system)” 也 对 多 模 态 交互 的 移动 
设备 搜索 进行 了 探索 [2] 。Feng 等 人 (2011) 介绍 了 语音 和 移动 设备 搜索 多 模 态 交互 的 详细 
分 析 [231。 

9. 3. 1.5 移动 设备 文本 录入 

在 触摸 屏 显 示 器 上 用 软 键 盘 打 字 录 入 文本 对 许多 用 户 是 再 平常 不 过 了 ,但 这 很 费时 间 。 
有 两 个 办 法 可 以 快速 录入 文字 ,分 别 是 手势 键盘 输入 和 语音 输入 。 手 势 键 盘 输 入 让 用 户 可 快 
速 在 熟悉 的 标准 键盘 上 滑动 划 出 文字 路 径 ， 巧 妙 规避 了 打字 过 程 。 然 而 ， 要 预测 手势 是 非常 
模棱两可 的 。 语 音 输 入 这 个 选项 非常 吸引 人 ， 它 完全 不 需要 打字 。 然 而 ， 语 音 输入 依赖 于 自 
动 语音 识别 技术 ， 在 嘲 杂 环境 或 非 母 语 用 户 来 说 效果 欠 佳 。“ 边 说 边 滑 ” (SAYS) 是 一 个 
结合 手势 键盘 和 语音 识别 的 多 模 态 界面 ， 用 于 改善 文本 录入 的 效率 和 准确 性 ， 如 图 9.7 所 
示 。 滑 动手 势 和 语音 输入 为 语言 预测 提供 补充 信息 ， 让 SAYS 系统 能 从 周围 声音 智能 提取 有 
用 的 线索 ， 改 进 语言 预测 的 准确 性 。 另 外 ，SAYS 是 在 之 前 研究 的 基础 上 !5] 建立 起 来 的 ， 
它 使 得 持续 同步 的 输入 方式 成 为 可 能 。 
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SAYS 界 面 推理 模型 





9.7 “ 边 说 边 滑 (Speak As You Swipe) ”界面 。 来 源 : 经 Khe Chai Sim 授权 转载 














Shinoda 等 人 (2011) 开发 了 一 个 类 似 (Ashita) (Benkyowo) (Shimasu) 

的 界面 :1 ， 能 支持 移动 环境 半 同 步 语音 和 语音 Our Krasse Der 
手写 输入 ， 如 图 9.8 所 示 。 语 音 和 手写 之 间 yya t 
有 固有 的 时 间 差 ， 很 难 应 用 传统 多 模 态 识别 
算法 。 要 解决 这 个 时 间 差 ， 他 们 开发 了 一 个 

= ae 图 9.8 话音 与 手写 输入 的 关系 。 来 源 : Shinoda K, 
多 模 态 识别 算法 ， 运 用 了 分 段 式 统一 方案 以 oy jk I 

oe atanabe Y, Iwata K, Liang Y, Nakagawa R and 
及 适应 用 户 个 人 时 间 差 特性 的 方式 。 该 界面 Furui S 2011, 授权 转载 
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也 可 支持 键盘 输入 ， 可 通过 多 种 不 同方 式 检验 : 

1) 用 户 在 一 句 话 中 写 下 每 个 短语 的 初始 字符 。 

2) APS Pan (1) 中 初始 字符 的 第 一 划 。 

3) 用 户 输入 笔触 提示 每 个 短语 的 开头 。 

4) 用 户 斋 击 每 个 短语 首 字 符 所 属 字 符 表 。 

5) 用 户 用 标准 键盘 输入 每 个 短语 初始 字符 。 

这 5 个 不 同 笔头 输入 界面 都 使 用 过 嗜 杂 的 语音 数据 进行 评 佑 ， 系 统 识 别 准确 率 比 在 5 个 
界面 中 单纯 使 用 语音 要 更 高 。 它 们 也 为 每 个 界面 进行 了 可 用 性 测试 ， 找 到 了 识别 可 用 性 与 性 
能 改进 之 间 的 平衡 。 

其 他 研究 比较 了 在 不 同 的 多 模 态 交互 策略 的 指导 下 使 用 触 控 输入 进行 文本 录入 ， 具 体 见 
参考 文献 [27]. 

9. 3. 1.6 移动 设备 图 片 编辑 

另 一 个 创新 融合 多 模 态 输入 的 移动 设备 应 用 是 “像素 色调 (PixelTone)” [3], ARRE 
调 (PixelTone) ”是 一 个 多 模 态 图 片 编辑 界面 ， 结 合 了 语音 和 直接 操作 ， 让 新 手 能 简单 地 使 
用 移动 设备 编辑 图 片 。 该 应 用 能 使 用 自然 语言 表达 想 要 如 何 修改 图 片 ， 也 能 直接 操作 定位 指 
定位 置 的 修改 ， 如 图 9. 9 所 示 。“ 像 素 色 调 (PixelTone)” 不 仅仅 为 编辑 图 片 提供 了 便利 的 
界面 。 该 界面 允许 模糊 指令 ， 新 手 可 以 使 用 例如 “让 它 好 看 些 ” 这 种 指令 ， 也 可 以 用 更 高 
级 的 指令 ， 如 “ 锐 化 顶部 的 中 间 色 调 ”。 虽 然 相 比 简单 的 触 控 界 面 ， 用 户 运 用 多 模 态 界面 进 
行 的 也 是 一 样 的 操作 ， 但 他 们 总 体 更 倾向 于 多 模 态 界面 ， 并 且 能 够 有 效 运用 该 应 用 完成 实际 
工作 量 。 

[ice (331 ohn | CAm 
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图 9.9 像素 色调 (PixelTone) 。 来 源 : Laput GP, Dontcheva M, Wilensky G, Chang W, Agarwala A, 
Linder J and Adar E 2013 。 授 权 转 载 


9.3.1.7 汽车 控制 

虽然 美国 大 多 数 州 禁止 开车 发 短信 ， 但 司机 通勤 时 仍 要 进行 许多 活动 。 正 在 进行 的 研究 
可 帮助 司机 在 进行 更 高 级 的 活动 ， 如 在 进行 导航 、 通 信 、 换 音乐 、 控 制 环境 等 操作 的 同时 ， 
有 效 完成 基本 驾驶 任务 [2] 。 美 国 汽车 工程 师 学 会 建议 ， 在 非 驾 驶 状态 需要 用 超过 15s 来 完 
成 的 任务 ， 在 汽车 行驶 时 应 禁止 执行 。 语 音 控 制 是 15s 规则 的 例外 ， 因 为 它们 不 要 求 用 户 把 
视线 从 道路 上 移 开 ， 也 许 能 够 显著 解决 这 一 问题 。 

然而 ， 有 些 数据 显示 某 些 语音 界面 会 导致 高 识别 负荷 ， 可 能 对 驾驶 情况 有 负面 影响 。 这 
一 负面 影响 是 由 于 语音 识别 有 一 定 技术 限制 ， 还 有 一 些 可 用 性 方面 的 问题 ， 例 如 混淆 的 或 不 
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一 致 的 指令 集合 ， 还 有 多 余 的 深奥 复杂 的 对 话 结构 。 根 据 驾 驶 情况 ， 通 过 结合 最 好 的 输入 模 
态 ， 多 模 态 界面 可 能 是 应 对 这 些 问 题 的 一 种 好 方法 。 

语音 、 触 控 、 手 势 和 触 控 板 都 分 别 被 用 作 驾 驶 界面 的 输入 。 然 而 ， 单 赁 某 一 项 输入 是 无 
法 完全 解决 问题 的 。Pfleging 等 人 (2012) °°! 创造 了 一 个 多 模 态 界面 ， 使 用 语音 结合 手势 操 
控 方 向 盘 ， 尽 量 防止 司机 分 心 ， 如 岁 9. 10 所 示 。Pfleging 等 人 指出 只 用 语音 输入 无 法 进行 精 
确 控 制 ， 而 只 用 触 控 输入 又 要 求 较 多 的 视觉 交互 ， 只 用 手势 输入 不 能 很 好 地 缩放 5 。 他 们 
提出 一 种 结合 语音 和 手势 的 多 模 态 交互 方式 ， 可 用 语音 指令 选取 可 视 的 对 象 或 功能 (镜子 、 
窗户 等 )， 并 且 简 单 的 触 控 手势 可 用 于 控制 这 些 功能 。 有 了 这 种 方法 ， 用 户 能 看 见 他 们 需要 
说 什么 ， 就 能 较 简 单 地 想起 语音 指令 。 通 过 运用 简单 的 触 控 手势 ， 这 种 交互 方式 降低 了 对 视 
觉 交 互 的 需求 ， 同 时 也 能 即时 反馈 ， 取 消 操作 也 变 得 很 简单 。 其 他 关注 汽车 控制 多 模 态 输入 
的 内 容 可 参见 Gruenstein 等 人 (2009) 的 研究 [221 。 

















9. 10 将 语音 和 姿势 相 结合 的 多 模 态 汽车 方向 盘 
XW: Pfleging B, Kienast M, Schmidt A and Doring T 2011。 经 授权 转载 


9.3.2 3D 姿势 


有 一 些 设备 ， 例 如 由 微软 公司 出 品 的 Kinect 和 由 英特尔 公司 根据 感知 计算 软件 开发 包 出 
品 的 深度 相机 ， 比 如 Creative 的 Senz3D 相机 ， 已 经 得 到 稳定 而 广泛 的 普及 ， 并 用 于 以 3D Z 
势 为 基础 的 新 的 交互 科技 中 。 结 合 使 用 深度 相机 和 标准 色彩 模 态 相机 时 ， 这 些 设备 可 以 提供 
精准 的 骨骼 追踪 和 手势 检测 。 相 比较 WIMP 的 人 机 交互 界面 ， 这 样 的 3D 姿势 可 以 更 自然 地 
完成 一 些 任 务 。 为 了 丰富 用 户 的 体验 ， 可 以 结合 多 种 方式 来 使 用 姿势 ， 例 如 语音 和 面部 追 
踪 。 更 加 有 趣 的 是 ，Kinect 和 Senz3D 相机 已 经 运用 于 微软 手机 中 ， 这 使 得 微软 手机 可 以 在 
多 模 态 界面 上 做 得 更 好 。 

另外 一 种 普遍 使 用 的 姿势 检测 技术 是 立体 相机 ， 立 体 相 机 采集 姿势 后 通过 机 器 识别 和 过 
滤 后 将 姿势 进行 分 类 。 在 这 些 科 学 技术 得 到 发 展 之 前 ， 在 多 模 态 界面 中 使 用 3D 姿势 仅 限 于 
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使 用 简单 的 相机 来 检测 用 于 选择 或 类 似 任务 的 手势 。 语 音 也 是 一 种 普遍 使 用 的 与 手势 相 结合 
的 方式 ， 这 也 体现 了 当下 的 3D 姿势 倾向 于 同时 调动 使 用 人 体 的 多 个 部 位 ， 而 不 是 像 其 他 一 
些 方式 一 样 在 同时 使 用 姿势 的 方面 受到 很 大 局 限 5] 。 

众多 应 用 程序 已 经 实现 了 对 Kinect 传感器 的 使 用 ， 其 中 的 很 多 游戏 都 兼 具 了 语音 和 次 
势 识别 功能 ， 这 些 功 能 的 发 展 得 益 于 微软 公司 的 第 一 方 开发 商 。 除 了 游戏 行业 ， 类 似 Kinect 
这 类 的 传感器 还 被 用 于 各 类 仿真 模拟 中 ， 这 也 使 得 科技 交互 可 以 通过 更 多 比较 自然 的 动作 得 
以 实现 。 在 人 机 交互 以 及 医疗 领域 中 已 经 做 了 部 分 工作 ， 以 实现 免 提 、 姿 势 控制 的 应 用 。 

9.3.2.1 游戏 和 仿真 

通过 肢体 语言 进行 的 仿真 交互 
在 虚拟 情景 中 得 到 普遍 使 用 ， 尤 其 
是 当 语 音 功 能 也 可 以 与 姿势 结合 
许 同 时 输入 的 情况 下 。Williamson 
等 人 (2011) 根据 这 些 开发 出 了 一 
套 可 以 为 士兵 进行 全 方面 身体 训练 
的 系统 :3”]， 这 套 系统 结合 运用 了 
Kinect、 语 音 控制 以 及 索尼 游戏 平 
台 上 的 动作 控制 器 (ILE 9.11)。 
这 套 “ 真 实 边缘 ”系统 的 原型 可 以 
使 用 户 通过 前 进行 走 、 微 微 倾 斜 等 
动作 实现 在 机 器 上 的 同步 情 景 。 用 图 9.11 结合 了 Kinect 和 PS 移动 控制 器 的 “真实 边缘 ”系统 。 
户 还 可 以 通过 连接 到 类 武器 设备 的 来 源 ， 经 Brian Williamson 允许 转载 
移动 控制 器 环顾 四 周 的 环境 。 除 此 
之 外 ,用 户 还 可 以 通过 语音 对 虚拟 情景 中 的 角色 发 出 指令 。 

目前 可 使 用 的 基于 深度 摄像 机 的 姿势 识别 装置 存在 一 个 缺点 ， 即 用 户 必须 面 对 装 置 才 能 
使 其 准确 跟踪 用 户 的 体态 。“ 真 实 边 缘 ” 融 合 系统 是 “真实 边缘 ”原型 的 一 个 延伸 ， 由 于 添 
加 了 多 个 环绕 用 户 的 Kinect， 使 得 该 系统 可 以 提供 360° 无 死角 的 姿势 识别 ， 同 时 由 于 在 数据 
层面 加 入 了 融合 检索 骨骼 的 技术 ， 也 使 得 该 系统 可 以 对 任意 方向 的 用 户 姿 势 进 行 识别 34。 
上 骨骼 跟踪 信息 通过 Kinect 从 用 户 客户 端 传人 电脑 服务 器 ， 并 在 电脑 服务 器 进行 数据 融合 。 
就 是 说 ， 相 对 原型 而 言 ， 这 套 融 合 系统 只 需要 更 多 的 Kinect 传感器 、 电 脑 客 户 端 ， 以 及 安装 
好 的 可 以 为 用 户 提 供 关 于 虚拟 环境 的 正确 数据 的 头盔 。 

已 经 有 大 量 人 研究 强调 了 关于 从 语音 到 3D 面部 识别 的 分 割 以 及 选择 。Budhiraja 等 人 明确 
提出 ， 关 于 指示 姿势 存在 的 一 个 问题 是 大 量 密集 或 阻塞 的 对 象 会 使 选择 变 得 困难 !5] 。 为 了 
解决 这 一 问题 ， 专 家 将 语音 作为 一 种 添加 模 态 以 帮助 指定 所 需 对 象 的 属性 ， 例 如 对 象 存在 的 
空间 位 置 、 相 对 位 置 或 物理 特性 等 。 正 是 因为 有 了 这 些 属性 我 们 才能 对 对 象 进 行 特定 的 描 
述 ， 比 如 “左边 蓝 色 的 那个 ”可 以 用 于 帮助 人 们 选择 需要 的 到 底 是 哪个 。 如 果 要 进行 精确 
的 定义 ， 那 么 对 象 的 物理 属性 和 方位 都 必须 清楚 明了 。 
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有 许多 实例 证 明 ， 在 人 机 交互 过 程 中 ，3D 姿势 并 非 是 最 主要 的 交互 方式 。SpeeG 输入 
系统 是 一 种 基于 姿势 的 键盘 替换 系统 ， 它 结合 了 语音 增强 以 及 3D 姿势 交互 技术 3 。 这 项 
系统 是 基于 语音 和 姿势 相 结合 的 Dasher 交互 体系 [| ， 可 以 取代 鼠标 的 功能 。 该 系统 使 用 调 
节 语 言 的 功能 使 得 用 户 可 以 通过 姿势 使 软件 选择 正确 的 指令 。 

图 9. 12 向 我 们 展示 的 是 虚拟 场景 以 及 指令 手势 。 尽 管 由 于 语音 识别 的 延迟 导致 系统 原 
型 无 法 实现 实时 同步 的 信息 输入 ， 但 用 户 在 进行 体验 后 觉得 相对 单一 由 微软 Xbox 360 控制 
器 、 语 音 控制 器 或 微软 Kinect 键盘 控制 的 屏幕 键盘 而 言 SpeeG 仍 是 最 有 效 的 交互 方式 。 


-2 











图 9.12 SpeeG 交互 以 及 示例 场景 。 来源 : 经 Lode Hoste 许可 转载 


3D 姿势 不 受 身体 整体 移动 的 限制 。Bohus 和 Horvitz (2009) [3 研发 了 一 套用 于 检测 对 
话 中 的 头 部 姿势 、 面 部 表情 和 一 定数 量 的 自然 语言 的 系统 。 通 过 一 个 基础 的 广角 相机 以 及 商 
用 软件 可 以 实现 头 部 姿势 的 跟踪 和 凝视 估算 。 一 个 线性 麦克 风 用 于 采集 用 户 的 声 源 。 这 些 方 
式 通 过 融合 和 分 析 后 会 向 用 户 做 出 一 个 适当 的 反馈 。 

这 个 多 方 系统 被 用 于 对 话 的 观察 性 研究 ， 在 这 一 研究 中 ， 系 统 会 提出 问题 等 待 用 户 进行 
回答 。 除 了 接收 来 自用 户 的 回答 ， 该 系统 还 会 口头 询问 用 户 是 否 确认 答案 。 系 统 还 将 视 用 户 
的 答题 情况 判断 是 否 继续 答题 或 切换 问题 等 。 这 套 系统 的 行为 是 基于 一 个 轮换 会 话 模 型 ， 也 
因 如 此 ， 该 系统 具有 四 种 行为 模 态 ， 即 保持 、 结 束 、 接 受 、 无 效 。 图 9. 13 给 出 了 该 系统 的 
功能 。 

Hrúz 等 人 (2011) 3°) 为 两 位 残疾 人 士 的 交流 情景 开发 出 了 一 套 多 模 态 的 姿势 和 语音 识 
别 系统 ， 两 位 交流 者 一 位 为 失聪 者 ， 另 一 位 为 失明 者 。 该 系统 利用 事先 训练 好 的 识别 器 对 其 
中 一 位 用 户 的 手势 进行 识别 。 识 别 器 只 使 用 了 一 个 相机 对 手势 进行 捕 提 ， 所 以 用 户 必须 身 着 
深 色 的 衣服 ， 与 双手 和 背景 形成 明显 对 比 ， 从 而 使 识别 器 能 够 更 加 准确 地 检测 到 信和 号。 这些 
信和 号 被 采集 之 后 会 被 转化 为 文字 形式 ， 然 后 再 由 文字 被 转化 为 语音 形式 后 传达 给 失明 用 户 。 
男 一 位 失聪 用 户 则 可 以 通过 将 语音 信号 转化 为 文字 信号 的 方式 进行 交流 。 这 个 语 境 中 的 每 一 
位 用 户 都 是 该 系统 建构 中 的 一 个 独立 输入 模 态 ， 如 图 9. 14 所 示 。 这 套 系统 同样 适用 于 其 他 
两 个 无 法 找到 合适 媒介 进行 交流 的 人 。 
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图 9. 13 多 方 轮换 会 话 模 态 的 示例 。 来 源 ， 经 微软 公司 许可 转载 
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图 9. 14 两 位 残障 人 士 之 间 的 交流 原理 示意 
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。 来 源 : 经 Marek Hruz 许可 转载 


第 9 章 感知 用 户 界面 的 多 模 态 输入 249 


9.3.2.2 医学 应 用 

Gallo 等 人 (2011) {RJE Kinect 研发 出 了 一 套 医学 影像 数据 导航 系统 。 尽 管 这 是 虚拟 
的 系统 ， 但 用 户 仍 可 以 在 这 些 数据 中 自由 切换 ， 例 如 用 户 通 过 手势 就 可 以 实现 缩放 、 翻 译 、 
旋转 以 及 指向 等 功能 。 除 此 之 外 ， 用 户 还 可 以 在 此 环境 中 选择 并 提取 自己 感 兴趣 的 数据 。 这 
套 系统 支持 一 些 常用 的 成 像 系统 ， 包 括 人 体 横 断面 扫描 成 像 、 核 磁 共 振 以 及 断层 扫描 成 
像 等 。 

在 医学 中 采用 3D 姿势 的 最 大 好 处 在 于 它 可 以 避免 手 与 医疗 器 械 的 接触 ， 使 医疗 环境 保 
持 无 菌 的 状态 。 这 类 交互 可 以 在 手术 环境 中 加 以 使 用 ， 以 提供 图 像 信息 而 无 需 重复 消毒 除 
菌 。 在 计算 机 化 的 医疗 系统 中 往往 存在 着 有 关 无 菌 环境 的 问题 。 一 般 来 说 ， 手 术 室 里 需要 一 
位 助理 来 对 这 些 图 像 信 息 进 行 处 理 ， 并 管理 其 终端 和 病人 的 图 像 。 这 些 助 理 通 常 不 具备 同 级 
主刀 医生 的 培训 水 准 ， 而 且 可 能 会 误解 医生 本 来 能 够 正确 解读 的 信息 。 

9.3.2.3 人 机 交互 

Perzanowski 等 人 (2001) [4 设计 出 了 一 种 人 机 交互 的 方式 ， 使 用 这 种 方式 时 人 们 的 语 
言 、 姿 势 都 显得 更 加 自然 。 这 种 交互 方式 的 实现 是 通过 摆 放 一 个 立体 摄像 机 来 查看 人 们 所 做 
出 的 手势 动作 ， 并 判定 这 些 动作 是 否 具 有 意义 。 通 过 接收 来 自用 户 的 姿势 和 话音 信息 ， 机 器 
人 可 以 正确 完成 用 户 的 指示 。 使 用 的 语音 指令 包括 “去 那 边 ”“ 走 快 一 点 ”等 简单 的 语句 。 

用 户 给 出 的 姿势 信息 可 能 是 从 手指 指向 的 某 一 个 位 置 移动 到 一 段 距离 之 外 的 另 一 个 位 
置 ， 或 是 将 握 紧 的 双手 打开 。 机 器 人 可 以 精确 地 做 出 判断 并 决定 移动 的 距离 。 用 户 还 可 通过 
掌上 电脑 等 实现 对 机 器 人 的 远程 控制 。 用 户 可 以 在 掌上 电脑 中 结合 使 用 语音 和 姿势 指令 代替 
对 机 器 人 直接 的 语音 和 姿势 指令 。 指 派 给 机 器 人 的 任务 可 能 会 受到 干扰 而 中 断 ， 但 是 机 器 人 
最 终 可 以 还 原 其 原始 任务 并 完成 。 类 似 的 结合 了 3D 姿势 和 语音 识别 控制 机 器 人 的 交互 技术 
在 参考 文献 [42, 43] 中 有 详细 介绍 。 

9. 3. 2.4 电子 消费 品 

多 模 态 输入 技术 的 发 展 日 益 成 熟 ， 现 已 成 为 电子 消费 品 ， 尤 其 是 大 屏 显 示 器 和 电视 机 的 
界面 功能 之 一 。 其 中 一 个 商业 例子 就 是 三 星 公司 的 智能 电视 机 系列 ， 其 包含 3D 姿势 、 语 音 
输入 以 及 面部 识别 。 在 研究 界 ，Lee 等 人 (2013) [4 将 3D 姿势 和 面部 识别 结合 运用 于 智能 
电视 机 ， 其 中 3D 姿势 用 于 调频 和 控制 音量 ， 面 部 识别 则 用 于 用 户 身 份 验证 。Takahashi 等 人 
(2013) 5 还 利用 深度 相机 对 带 有 脸 部 跟踪 的 3D 姿势 技术 进行 了 研究 ， 以 辅助 用 户 观看 
电视 。 

Krahnstoever 等 人 (2002) (46 研发 了 一 个 类 似 的 系统 ,将 3D 手势 、 头 部 追踪 、 语 音 输 
入 以 及 面部 识别 结合 并 用 于 一 个 大 画幅 显示 器 。 这 个 系统 可 配置 于 商场 内 ， 帮 助 顾客 选择 合 
适 的 目标 商店 。 由 于 人 研发 技术 日 益 进步 ， 产 品 体积 变 小 以 及 价格 有 所 降低 ， 这 些 多 模 态 输入 
界面 将 作为 主要 的 用 户 界 面 被 应 用 于 更 多 的 电子 消费 品 ， 如 台式 电脑 、 笔 记 本 电脑 等 。 


9.3.3 ”有 眼 动 跟踪 和 凝视 
从 电子 游戏 到 广告 分 析 ， 在 各 种 不 同 的 应 用 软件 里 ， 商 业 性 眼 动 跟 踪 和 凝视 定位 设备 都 
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层出不穷 [wl] 。 因 此 在 过 去 几 年 ， 提 高 用 户 凝视 位 置 识别 的 能 力 成 为 了 研究 领域 中 一 个 很 重 
要 的 方面 。 在 多 模 态 输入 系统 中 ,凝视 主要 用 于 对 象 的 选择 ,将 凝视 与 键盘 结合 进行 选 
择 [%49 或 者 将 凝视 作为 初步 选择 ， 再 结合 鼠标 进行 更 精确 的 识别 [1] 。 

多 模 态 界面 将 凝视 与 手势 一 体 
化 ， 适 用 于 大 屏 设 备 的 多 显示 器 环 
BADO, 在 凝视 跟踪 的 基础 上 使 用 
鼠标 深 轮 、 倾 斜 手持 设备 或 者 利用 
触摸 输入 等 各 种 不 同 的 功能 可 实现 
大 型 信息 空间 的 平移 和 缩放 操 
Me) 。 将 凝视 跟踪 和 语音 输入 结 
合 则 可 用 于 文本 输入 [5 。 尽 管 可 
用 性 测试 表明 ， 传 统 的 键盘 输入 速 
率 更 快 ， 信 息 更 准确 ， 但 在 这 样 的 
多 横 态 界面 中 ， 用 户 只 需 聚 焦 于 一 
个 感 兴趣 的 特征 ， 发 出 语音 命令 ， 
就 可 将 该 关键 字 输 入 目标 文件 。 华 
有 了 眼 动 跟踪 功能 的 多 模 态 界面 还 被 用 于 娱乐 领域 。 例 如 ，Heo 等 人 (2010) 05 研发 了 一 款 
结合 凝视 、 手 势 以 及 生物 反馈 的 游戏 ( 见 图 9.15)， 表 明了 多 模 态 界面 比 传统 的 键盘 和 和 鼠标 
控制 更 具 吸 引力 。 

另外 ， 最 近 眼 动 跟 踪 还 被 用 于 脑 机 接口 (BCI) ， 以 方便 残障 人 士 使 用 i%, |。 在 这 样 的 
界面 里 ， 脑 机 接口 部 分 模仿 选择 特定 对 象 的 目光 停留 时 间 ， 凝 视 则 用 于 指向 这 一 特定 对 象 ， 
两 者 协作 即 可 便于 残障 人 士 进 行 选择 。 考 虑 到 单独 使 用 脑 机 接口 时 人 体 动作 感知 的 有 限 性 ， 
这 种 将 凝视 与 脑 机 接口 技术 一 体 化 的 多 模 态 界面 能 令 用 户 产 生 更 直观 的 感觉 ( 见 9.3.5 


节 )。 
9.3.4 面部 表情 


面部 表情 识别 可 看 作 感知 计算 应 用 的 重要 组 成 部 分 ， 且 是 一 个 具有 挑战 性 的 热点 研究 问 
题 。 而 且 目 前 在 计算 机 视觉 领域 已 进行 了 大 量 有 关 面 部 表情 识别 的 研究 [3] 。 在 多 模 态 交互 
中 ， 面 部 表情 主要 用 于 两 个 方面 。 

第 一 种 方式 ， 面 部 表情 与 人 体 其 他 特征 相 结 合 ， 增 强 识 别 的 准确 性 ， 最 终 达 到 人 类 情绪 
识别 。 例 如 ，De Silva 等 人 (1997) P 将 视觉 信息 与 听觉 信息 结合 ， 以 确定 哪 种 信息 能 更 好 
地 识别 某 些 情结。 结果 表明 ， 视 觉 信 息 能 更 准确 地 识别 人 类 的 嘉 、 奴 、 惊 和 恶 ， 而 听觉 信息 
TU EE AA GH ee AE 

而 Busso 等 人 (2004) !91 在 情绪 识别 探测 系统 中 结合 语音 和 面部 表情 也 发 现 了 类 似 
的 结果 。Kessous 等 人 (2010) [1 在 多 模 态 识别 器 中 利用 面部 表情 、 语 音 识别 以 及 肢体 语 
言 来 探测 人 类 情绪 。 另 一 个 将 面部 表情 和 话音 输入 结合 的 情绪 探测 系统 的 例子 见 参 考 文 

















图 9. 15 “一 款 结合 凝视 ， 手 势 以 及 生物 反馈 的 游戏 。 
由 Hwan Heo 许可 转载 









































第 9 章 感知 用 户 界面 的 多 模 态 输入 251 


献 [62]。 

面部 表情 用 于 多 模 态 界面 情景 的 另 一 种 方式 就 是 建立 情感 计算 系统 ， 以 确定 情绪 或 者 心 
情 状 态 ， 进 一 步调 整 应 用 软件 的 界面 、 难 度 以 及 其 他 参数 ， 以 增强 用 户 体验 效果 。 例 如 ， 
Lisetti 和 Nasoz (2002) [91 开 发 了 一 个 多 模 态 用 户 情感 界面 一 -MAUI 系统 。 该 系统 通过 结 
合 面 部 表情 、 语 音 以 及 生物 反馈 来 探测 用 户 的 情绪 状态 。 

又 如 ，Caridakis 等 人 (2010) [的 利用 递归 神经 网 络 发 出 的 视觉 与 听觉 信息 研发 出 了 情 
感 状 态 识别 器 。 其 识别 率 高 达 98% ， 已 达到 多 模 态 感知 计算 系统 的 标准 : 它 可 以 观察 并 理 
解 用 户 的 情感 状态 ， 不 论 用 户 正在 主动 发 送 命令 还 是 被 动 接受 监控 。 


9.3.5 脑 机 接口 


现代 脑 机 接口 只 需 利 用 脑 电 图 便 能 监测 人 类 的 心理 状态 。 为 了 利用 现代 技术 追踪 信号 ， 
必须 将 多 个 电极 连接 至 人 脑 特定 部 位 。 然 而 这 些 连 接 限制 了 人 体 某 些 特征 进入 可 交互 的 系 
统 。 如 果 用 户头 戴 脑 机 接口 器 的 同时 身体 稍 有 移动 ， 传 输 信 号 中 就 会 有 噪声 ， 从 而 降低 了 信 
号 准确 度 。 不 过 由 于 脑 机 接口 通常 用 于 残疾 人 士 的 交流 和 运动 ， 信 和 号 噪声 便 不 是 大 问题 。 

包括 Emotiv ( 见 图 9. 16) 和 Neurosky 在 内 的 多 家 公司 已 开始 研发 低 成 本 脑 机 接口 ， 用 
于 诸如 电子 游戏 等 以 前 非常 规 应 用 软件 。 由 于 脑 机 接口 成 本 降低 ， 数 款 多 模 态 应 用 软件 已 被 
提议 使 用 脑 机 接口 。 目 前 ,使 用 最 广泛 的 脑 机 接口 形态 是 语音 和 凝视 ， 因 为 两 者 的 应 用 不 需 
要 身体 的 移动 。Giirksk 和 Nijhol (2012) :5] 特 列举 了 多 项 例子 ， 表 明 脑 机 接口 可 通过 将 人 
脑 控制 的 界面 作为 多 模 态 界面 的 一 种 形态 来 增强 用 户 体 验 和 工作 效率 。 
































图 9. 16 Emotiv 脑 电 图 神经 头盔 。 来 源 : Corey Pittman 








脑 电 图 通常 与 额外 的 神经 图 像 ， 比 如 用 来 测量 肌肉 活动 的 肌 电 图 进行 结合 。 与 单独 使 用 
脑 电 图 或 肌 电 图 相 比 ， 结 合 使 用 使 Leeb 等 人 (2010) “9 在 识别 性 能 效果 方面 取得 了 显著 提 
高 。 两 种 信号 的 贝 叶 斯 融合 则 可 产生 混合 信号 ， 脑 电 图 与 近 红外 光谱 结合 也 被 证 明 能 有 效 提 
高 信号 的 分 类 精度 !9%1 。 不 过 由 于 自身 明显 的 延迟 性 ， 近 红外 光谱 对 实时 脑 机 接口 造成 了 
阻碍 。 

Gürkök 等 人 (2011) 1 研究 了 在 用 户 自 创 的 电子 游戏 中 各 种 不 同 输 入 模 态 对 用 户 表现 
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的 影响 。 在 一 球 名 叫 “ 照 看 绵羊 1” 
的 游戏 中 ， 用 户 需 要 移动 一 群 小 
狗 ， 让 小 狗 将 羊 群 赶 入 围栏 (游戏 
系统 设置 见 图 9.17)。 该 游戏 由 鼠 | 
标 和 一 两 种 其 他 形式 相 结 合 使 用 。 
游戏 者 通过 语音 或 者 脑 机 接口 来 选 
择 小 狗 。 若 用 话音 ， 只 需 说 出 待 选 
小 狗 的 名 字 ; 在 用 脑 机 接口 ， 则 需 
要 专注 于 待 选 小 狗 所 在 的 位 置 ， 然 
后 在 小 狗 被 指定 的 目的 地 位 置 释放 











ee 图 9.17 “照看 绵羊 !” 游 戏 界面 。 
鼠标 按钮 。 游戏 者 被 要 求 在 三 种 博 来 源 : Hayrettin Gürkök 许可 转载 


况 下 进行 游戏 : 上 自动 语音 识别 ， 脑 


机 接口 以 及 在 多 模 态 配置 中 结合 自动 语音 识别 和 脑 机 接口 。 研 究 发 现 ， 与 只 能 使 用 一 种 特定 
游戏 形式 相 比 ， 有 机 会 选择 游戏 模 态 并 没有 显著 提高 游戏 者 表现 能 力 ， 因 为 部 分 游戏 者 整个 
过 程 一 次 都 没有 改变 过 游戏 模 态 。 

脑 机 接口 的 一 个 扩展 应 用 是 建 模 接 口 。Sree 等 人 (2013) ‘9 设计 了 一 个 软件 框架 ， 将 
脑 机 接口 作为 3D 建 模 的 额外 辅助 模 态 。 在 这 个 软件 框架 里 ，Emotiv 脑 电 图 神经 头盔 是 主要 
的 应 用 装置 ， 再 次 结合 脑 电 图 与 肌 电 图 ， 并 且 连 至 键盘 和 上 鼠标， 共同 控制 建 模 过 程 。 这 个 带 
有 Emotiv 的 软件 将 为 装置 信号 设置 参数 ， 并 根据 特定 用 户 的 需求 对 装置 进行 调整 。 软 件 的 
肌 电 图 模块 用 于 探测 脸 部 动作 ， 包 括 癌 左 看 、 控 制 画 状 、 对 鼠标 左 键 上 眼 等 。 软 件 的 脑 电 图 
模块 则 用 于 控制 鼠标 动作 ， 以 探测 用 户 的 行为 意图 。 

Emotiv 应 用 程序 可 用 于 解释 12 种 动作 ， 包 括 6 种 定向 动作 和 6 种 转 体 动作 ， 且 都 可 用 
于 计算 机 辅助 设计 环境 。 然 而 该 程序 系统 有 参与 者 疲劳 这 一 普遍 问题 ， 还 有 一 些 有 关 脑 电 图 
言 号 强度 的 问题 。 因 此 ， 系 统 可 添加 如 语音 在 内 的 其 他 输入 形式 以 提高 可 用 性 。 

Zander 等 人 (2010b) 1 中 让 用 户 自由 使 用 想象 动作 或 视觉 焦点 或 两 者 的 结合 来 控制 脑 机 
接口 。 他 们 认为 ， 如 果 可 供 选 择 的 控制 方式 或 者 混合 控制 技术 可 明显 提高 准确 性 ， 那 么 脑 机 
接口 在 只 有 一 种 控制 方式 的 情况 下 就 不 适用 于 所 有 用 户 。Maye 等 人 (2011) [站 在 利用 脑 机 
接口 增加 用 户 可 控制 的 外 界 刺 激 (不 同 的 触觉 和 视觉 刺激 ) 时 ,保持 相似 的 脑力 活动 ， 从 
而 提出 了 一 个 可 用 的 方法 。 用 户 在 不 同 外 界 刺激 中 进行 转换 就 可 更 加 容易 地 对 大 脑 活动 进行 
分 类 。 而 Zander 等 人 (2010b) [中 则 将 人 机 交互 中 的 脑 机 接口 分 为 三 类 ， 主动 活动 、 反 应 
活动 以 及 被 动 活 动 。 


9.4 多 模 态 集成 策略 


多 模 态 界面 中 最 重要 的 模块 之 一 就 是 集成 部 分 。 集 成 通常 被 称 为 融合 引擎 ， 它 将 不 同 的 
输入 模 态 结合 ， 创 造 出 有 意义 指令 的 连贯 界面 '”] 。 但 在 建立 多 模 态 集成 引擎 时 会 有 很 多 外 
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来 的 技术 性 挑 成 
。 第 一 ， 不 同 的 输入 模 态 在 数据 格式 、 输 入 频率 、 语 义 意 义 等 方面 有 不 同 的 特点 ， 从 
而 难以 进行 结合 。 








。 第 二 ,一 个 交互 序列 的 不 同时 间 需 使 用 不 同 的 输入 形式 ， 要 求 集成 引擎 反应 灵活 以 
推进 输入 过 程 ， 因 此 定时 很 重要 。 

。 第 三 ， 是 和 定时 有 关 的 重大 挑战 : 消除 模糊 。 当 集成 引擎 约束 力 不 足 (引擎 信息 不 
足 ， 无 法 做 出 融合 决定 ) 或 者 约束 力 过 大 (引擎 产生 信息 冲突 ， 需 做 出 几 项 融合 决定 ) 时 ， 
就 会 导致 融合 模糊 。 

。 最 后 ， 多 模 态 界面 所 使 用 的 输入 模 态 通常 来 源 于 自然 交流 渠道 (例如 ，3D 姿势 、 语 
音 、 面 部 表情 等 ) ， 在 这 些 洪 道中， 需 运用 识别 技术 对 接收 的 数据 进行 切割 与 分 类 。 因 此 ， 
所 有 这 些 输入 模 态 都 存在 概率 的 不 确定 性 ， 使 得 集成 引擎 运行 更 加 复杂 。 

在 融合 引擎 中 执行 多 模 态 集成 有 两 个 基本 方法 : 前 期 集成 与 后 期 集成 。 两 种 方法 都 有 各 
自 不 同 的 集成 方式 [31 。 前 期 集成 的 前 提 是 数据 要 早 于 任何 主要 处 理 过 程 〈 低 阶 处 理 除外 ) 
而 首先 被 集成 。 与 之 对 比 ， 后 期 集成 分 别 通过 每 个 模 态 进行 数据 的 处 理 ， 并 在 集成 开始 前 将 
数据 单 模 态 化 。 后 期 集成 的 优势 在 于 ， 因 各 种 输入 横 态 可 以 被 单独 分 析 ， 那 么 就 不 存在 时 间 
同步 的 问题 ， 软 件 开发 也 更 加 简单 。 

然而 ， 后 期 集成 自身 有 一 个 问题 ， 它 可 能 丢失 潜在 的 跨 模 态 交互 作用 信息 。 例 如 ， 前 期 
集成 中 来 自 姿势 识别 器 的 结果 和 语音 识别 需 的 结果 可 互相 补充 与 纠正 。 而 在 后 期 集成 中 ， 每 
一 个 识别 器 只 能 独立 做 出 形式 运用 的 决策 。 目 前 ， 对 前 期 集成 或 后 期 集成 的 选择 问题 仍 是 研 
究 热 点 ， 这 取决 于 所 使 用 的 输入 形式 以 及 应 用 软件 所 支持 的 多 模 态 交 互 形式 。 需 要 注意 的 
是 ， 在 菜 些 情 况 下 ， 可 折 中 使 用 两 种 方式 来 执行 多 模 态 集成 。 例 如 ， 将 前 期 集成 中 的 3D 姿 
势 和 凝视 与 后 期 集成 的 语音 结合 。 在 前 期 集成 和 后 期 集成 的 背景 下 ， 对 于 任何 的 接收 数据 流 
都 有 3 个 不 同 的 集成 级 别 : 数据 级 、 特 征 级 和 决策 级 "1 。 数 据 级 和 特征 级 适用 于 前 期 集成 ， 
其 中 数据 级 集成 主要 关注 低 阶 处 理 ， 通 常用 于 相似 的 输入 横 态 ， 如 嘴唇 和 面部 表情 。 这 种 处 
理 方式 还 被 用 于 最 小 集成 。 因 为 最 接近 原始 数据 源 ， 数 据 级 集成 便 可 以 提供 最 详细 的 信息 ， 
但 它 的 运行 易 受 噪声 的 影响 。 

特征 级 集成 用 于 各 种 模 态 紧密 结合 或 者 同步 运行 时 。 示 例 形 式 包括 来 自 声音 和 嘴 层 动作 
的 语音 识别 ， 示 例 策略 包括 神经 网 络 和 隐 马 尔 可 夫 模 型 。 与 低级 集成 相 比 ， 特 征 级 集成 不 易 
受 噪声 影响 ,但 无 法 提供 大 量 细节 信息 。 

决策 级 集成 〈 例 如 ， 对 话 水 平 融合 !”] ) 属于 后 期 集成 ， 是 多 模 态 集成 最 普遍 的 形式 。 
其 主要 优势 在 于 处 理 松 散 结合 的 模 态 (例如 ， 触 控 输 入 和 语音 输入 ) 的 能 力 , 但 还 要 取决 
于 各 输入 模 态 独立 完成 信息 处 理 的 准确 性 。 

框架 式 、 合 并 式 、 程 序 性 和 符号 /统计 集成 是 在 决策 级 集成 下 的 最 普遍 的 集成 策略 。 


9. 4.1 框架 式 集 成 
框架 式 集成 着 重 于 属性 - 值 对 的 数据 结构 。 这 种 框架 收集 各 种 输入 模 态 的 值 对 ， 并 做 出 
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全 局 性 解释 。 以 语音 输入 为 例 ， 一 个 属性 - 值 对 可 能 是 “操作 ”， 其 含义 可 能 是 “删除 ” 
“添加 ”和 “修改 ”等 。 每 个 框架 支持 一 个 独立 的 输入 形式 ， 集 成 则 作为 框架 含义 群 的 集 
合 。 每 一 个 属性 都 有 分 值 ， 集 成 属性 的 总 分 就 代表 最 好 的 行动 方案 。Koons 等 人 (1993) 55] 
是 第 一 个 研究 结合 了 3D 姿势 、 凝 视 以 及 语音 的 特征 型 集成 的 团体 之 一 。 最 近 ，Dumas 等 人 
(2008) 1 研发 了 HephaisTK 多 模 态 界面 工具 包 ， 将 框架 式 融 入 多 模 态 集成 。 其 他 通过 不 同 
输入 形式 而 使 用 框架 式 集成 的 多 模 态 界面 见 参考 文献 [77 -79] 。 


9.4.2 合并 式 集成 


合并 式 集 成 的 主要 理念 是 使 用 合并 操作 符 。 该 理念 源 于 自然 语言 处 理 [801 ， 控 制 两 个 部 
分 信息 的 一 致 性 ， 若 信息 一 致 ， 就 可 组 合 为 一 条 信息 [8 。 例 如 ，Cohen 等 人 (1997b ) 
[8 首先 在 QuickSet 系统 中 结合 了 一 致 性 和 类 型 性 特征 结构 将 笔 式 手势 和 语音 输入 进行 集 
成 。 最 近 ，Taylor 等 人 (2012) [1 选择 了 一 个 合并 式 集成 方案 ， 将 语音 和 3D 指向 手势 与 带 
触摸 手势 的 语音 连接 ， 支 持 与 无 人 控制 机 器 人 车 辆 的 交互 。Sun 等 人 (2006) |) te RA 
并 式 集成 ， 并 与 多 模 态 语法 句法 结合 ， 该 语法 句法 存在 于 运用 3D 姿势 和 语音 的 交通 管理 工 
具 中 。 合 并 式 集成 在 一 次 性 融合 两 种 输入 模 态 的 情况 下 运行 状况 更 佳 ， 并 且 绝 大 多 数 合并 式 
集成 研究 都 更 倾向 于 输入 对 。 更 多 合并 式 多 模 态 集成 见 参考 文献 [85，86 ] 。 


9.4.3 程序 性 集成 


程序 性 集成 技术 通过 算法 管理 明确 表示 了 多 模 态 状 态 空 间 !?2] 。 程 序 性 集成 的 常见 例子 
有 扩展 转移 网 络 和 有 限 状 态 机 。 例 如 ，Neal 等 人 〈1989)187] 和 Latoschik 〈2002) '**! 在 程序 
性 集成 中 都 运用 了 扩展 转移 网 络 ，Johnston 和 Bangalore (2005 ) [89] 以 及 Bourguet 
(2002) 5901 则 对 程序 性 几何 运用 了 有 限 状 态 自 动机 。 其 他 使 用 程序 性 集成 的 方式 还 有 Petri 
Py!) 和 引导 传播 网 络 口 ] 。 在 这 些 系统 里 ， 语 音 输入 可 与 鼠标 、 键 盘 、 笔 式 输入 、 和 触 控 输 入 
或 者 3D 姿势 结合 。 


9.4.4 符号 /统计 集成 


符号 /统计 集成 使 用 更 多 传统 合并 式 方法 ， 并 将 这 些 方法 与 统计 处理 结合 ， 形 成 混合 多 
模 态 集成 策略 。 这 些 策略 也 从 机 器 学 习 中 引进 相关 概念 '” 1。 尽管 主要 和 特征 级 集成 共同 被 
应 用 ， 机 咒 学 习 在 决策 级 集成 方面 也 有 被 研究 的 事例 六 。 以 Pan 等 人 (1999) [53 为 例 ， 他 
们 利用 贝 叶 斯 推理 得 出 了 一 个 公式 ， 以 估算 多 感 信号 的 联合 概率 。 其 中 多 感 信 号 利用 合适 的 
映射 函数 以 反映 信号 之 间 的 关联 ， 映 射 则 由 最 大 互信 息 量 引导 。 

关于 符号 /统计 集成 技术 的 一 个 更 早 的 例子 是 QuickSet 应 用 中 的 MTC (小 组 委员 会 ) FR 
FOH, 在 MTC 中 ， 各 种 输入 形式 根据 后 验 概率 而 被 集成 。 各 种 模 态 的 识别 器 作为 MTC BE 
计 积 分 器 的 成 员 ， 组 成 不 同 的 团队 ， 经 训练 而 互相 协作 并 衡量 不 同 模 态 的 和 输出。 当前 输入 一 
经 接收 ， 团 队 就 建立 后 验 估算 机 制 ， 发 出 多 模 态 指令 。 

MTC 积分 器 将 后 验 概率 的 经 验 分 布 进行 分 析 ， 然 后 将 每 个 待 选 指令 标记 为 最 高 级 别 指 
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令 。Flippo 等 人 (2003) 55 利用 了 与 MTC 相似 的 方法 作为 多 模 态 交互 框架 的 一 部 分 ， 他 们 
使 用 并 行 代理 来 估算 每 一 个 模 态 识别 结果 的 后 验 概率 ， 然 后 衡量 之 ,综合 决策 出 可 适用 的 多 
模 态 指令 。 

最 近 ，Dumas 等 人 (2012) "开发 了 一 个 统计 型 多 模 态 集成 方案 ， 该 方案 通过 时 间 关 
系 属性 ， 使 用 隐 马 尔 可 夫 模 型 进行 语义 级 相关 输入 形式 的 探测 。 更 多 有 关 多 模 态 集成 中 机 器 
学 习 的 信息 见 参 考 文献 [97，98 ] 。 虽 然 这 些 方法 在 多 模 态 集成 中 能 有 效应 对 建 模 的 不 确定 
性 ， 但 它们 有 一 个 主要 的 缺陷 : 需要 大 量 训练 数据 的 支持 。 


























9.5 多 模 态 交互 的 可 用 性 问题 








考虑 到 感知 计算 情境 中 多 模 态 交互 的 本 质 特点 以 及 为 提供 直观 有 力 的 用 户 体 验 而 紧密 结 
合 不 同 输入 形式 的 目的 !”] ， 多 模 态 交互 的 可 用 性 就 成 为 了 多 模 态 界面 设计 中 至 关 重要 的 一 
部 分 。 为 方便 讨论 多 模 态 输入 的 部 分 可 用 性 问题 ， 我 们 以 Oviatt 关于 多 模 态 交互 的 十 大 迷 思 
作为 讨论 的 开端 "1 。 尽 管 这 些 迷 思 著 于 几 年 前 ,但 至 今 仍 可 适用 。 

如 果 建 立 一 个 多 模 态 系 统 ， 那 么 系统 用 户 就 能 进行 多 模 态 交互 。 然 而 一 项 应 用 支持 多 模 
态 输入 并 不 表明 用 户 会 利用 它们 发 出 所 有 指令 。 因 此 ， 指 令 结构 的 灵活 性 对 于 人 机 之 间 的 自 
然 交 流 形式 非常 重要 。 换 言 之 ， 多 模 态 界面 应 该 具有 灵活 性 ， 能 以 不 同方 式 发 出 指令 。 例 
如 ， 系 统 用 户 应 能 同时 使 用 语音 和 3D 姿势 发 出 指令 ,并 且 还 可 选择 同时 使 用 语音 和 凝视 或 
者 3D 姿势 和 凝视 或 者 单独 使 用 语音 。 就 输入 模 态 集成 的 方式 而 言 ， 这 种 选择 设计 会 使 整体 
多 横 态 用 户 界面 更 复杂 ， 但 具有 最 广泛 的 概括 性 。 

语音 和 指向 是 主要 的 多 模 态 集成 形式 。 从 可 用 性 角度 看 ， 语 音 和 指向 有 利于 直观 的 多 模 
态 输 入 组 合 ， 尤 其 当 用 户 要 选择 虚拟 对 象 并 对 这 些 对 象 执 行 操作 (例如 ,将 [这个] 圆 简 
漆 蓝 ) 时 。 但 本 章 所 讨论 过 的 内 容 中 ， 还 有 多 种 可 用 的 多 模 态 输入 组 合 。 而 从 可 用 性 角度 
看 ， 存 在 一 个 关键 问题 : 特定 的 输入 组 合 真能 适用 某 一 特定 任务 吗 ? 

总 的 来 看 ， 为 给 定 任 务 提供 支持 简单 自然 的 交互 隐喻 的 多 模 态 输入 组 合 非常 重要 。 例 
如 ， 在 应 用 触 控 输入 或 者 3D 姿势 的 移动 设备 中 ,语音 和 指向 就 可 能 不 是 最 佳 输 入 组 合 。 

多 模 态 输入 包含 同时 信和 号。 并非 所 有 多 模 态 输入 策略 都 要 求 用 户 同时 执行 各 种 输入 形 
式 ， 特 定 输入 形式 需要 时 间 整 合 ， 而 许多 情况 下 ， 各 种 形式 以 互补 输入 模 态 交替 进行 ( 例 
如 ， 先 说 话 ， 然 后 执行 3D 姿势 ， 反 之 亦 然 ) 。 实 际 上 ， 多 模 态 输入 策略 还 可 以 对 一 些 特定 
任务 使 用 一 种 模 态 ， 而 对 其 他 任务 使 用 另外 的 模 态 。 因 此 ， 从 可 用 性 角度 看 ， 重 要 的 是 输入 
形式 可 以 多 种 不 同方 式 结合 ， 且 并 不 是 所 有 输入 形式 都 需 支 持 同 时 输入 。 

在 任何 带 有 语音 的 多 模 态 系统 中 ， 语 音 就 是 主要 的 输入 模 态 。 虽 然 语音 输入 是 人 类 用 以 
交流 的 主要 输入 模 态 ， 但 它 在 多 数 情况 下 并 不 是 多 模 态 界面 的 主要 模 态 。 可 惜 的 是 ， 语 音 识 
别 的 效果 在 喧闹 环境 中 会 减弱 ， 对 语音 输入 也 就 更 不 利 。 男 外 ， 用 户 可 能 因 顾 及 隐私 而 不 愿 
使 用 语音 输入 。 对 于 其 他 情况 ， 当 其 他 输入 形式 的 结合 更 有 利于 执行 给 定 任务 ,语音 就 可 能 
仅 是 一 种 备用 输入 模 态 。 因 此 ， 设 计 多 模 态 交互 情境 时 ， 并 不 需要 将 语音 设置 为 主要 的 输入 
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模 态 ， 而 只 在 最 合理 的 情况 下 使 用 。 

多 模 态 语言 和 单 模 态 语言 在 语言 学 上 并 无 差异 。 多 模 态 交互 的 优点 之 一 在 于 简化 了 输入 
模仿。 设想 一 位 用 户 想 要 移动 对 象 位 置 的 情境 便 知 。 而 单独 使 用 语音 则 要 求 用 户 不 仪 要 描述 
关键 对 象 ， 还 要 描述 出 对 象 将 被 放置 的 地 点 。 然 而 ， 将 语音 和 姿势 结合 ， 用 户 就 可 简化 描述 
过 程 ， 因 为 他 们 同时 也 在 使 用 第 二 种 输入 形式 (在 这 种 情况 下 是 指向 ) ， 既 可 识别 对 象 ， 也 
可 将 对 象 放置 于 不 同 地 点 。 这 种 输入 组 合 表明 ， 当 用 户 在 执行 并 发 多 模 态 交互 时 ， 可 使 用 简 
单 的 输入 指令 来 控制 单个 输入 模 态 。 从 可 用 性 来 看 ， 重 点 是 了 解 单 模 态 语言 有 时 可 能 比 多 模 
态 语 言 更 加 复杂 ， 而 且 多 模 态 输入 可 消除 这 种 复杂 性 ， 有 利于 界面 的 简化 使 用 。 

多 模 态 集成 包含 各 种 输入 模 态 间 的 信息 重复 。 多 模 态 集成 中 一 个 关键 理念 是 重复 的 输入 
模 态 有 助 于 增强 用 户 体验 ， 原 因 是 输入 模 态 可 强化 彼此 。 从 计算 角度 来 看 这 无 疑 是 正确 的 假 
设 ， 且 在 多 模 态 集成 中 占有 一 席 之 地 。 但 是 ， 从 可 用 性 角度 看 ， 多 模 态 输入 的 补充 性 质 不 应 
因为 它 的 优点 而 被 忽视 。 因 此 ， 确 保 合 适 的 多 模 态 集成 以 达到 补充 的 效果 在 用 户 看 来 很 
重要 。 

单个 错误 识别 技术 经 结合 成 多 模 态 技术 ， 可 能 导致 更 多 的 错误 。 多 模 态 输入 ， 尤 其 是 感 
知 计算 的 一 项 有 意思 的 挑战 在 于 ， 使 用 的 各 输入 模 态 需要 识别 技术 以 理解 输入 进程 。 不 足 的 
是 ， 由 于 识别 咒 的 精准 度 不 确定 ， 识 别 结果 也 会 出 错 。 然 而 ， 绪 合 多 种 识别 性 输入 确 有 助 于 
提高 指令 的 整体 精准 度 ， 创 造 出 更 可 靠 的 使 用 界面 。 而 精准 度 提高 的 关键 在 于 多 模 态 集成 策 
略 。 另 外 ， 如 果 可 以 自由 选择 ， 用 户 就 会 使 用 他 们 认为 精准 度 更 高 的 输入 形式 。 所 以 ， 从 可 
用 性 角度 看 ， 这 一 使 用 模式 也 可 说 明确 保 多 模 态 界面 灵活 性 的 原因 。 

所 有 用 户 发 出 的 多 模 态 指令 都 以 相同 方式 集成 。 多 模 态 界面 用 户 会 识别 集成 模 态 ， 以 确 
定 早期 将 如 何 使 用 界面 ， 并 保持 这 种 使 用 方式 。 然 而 ， 正 如 我 们 所 看 到 的 ， 人 类 有 很 多 种 不 
同 的 方式 来 使 用 多 模 态 界面 。 因 此 ， 多 模 态 集成 方案 要 灵活 ， 能 识别 基于 用 户 的 主要 集成 模 
态 。 由 于 融合 引擎 可 感知 用 户 如 何 与 不 同 输入 模 态 交互 ， 这 一 方案 可 以 提高 识别 率 。 

不 同 输入 模 态 可 用 于 传输 相似 的 信息 ， 但 是 并 非 所 有 的 输入 模 态 都 是 平等 的 。 换 句 话 
说 ， 根 据 用 户 想 要 传达 信息 类 型 的 不 同 ， 针 对 这 些 类 型 ， 输 入 模 态 也 各 有 强势 和 弱势 。 例 
如 ， 凝 视 能 产生 与 语音 几乎 完全 不 同类 型 的 信息 。 所 以 ， 从 可 用 性 角度 看 ， 重 点 在 于 了 解 哪 
些 输入 模 态 可 用 ， 且 可 用 于 哪些 情况 。 也 就 是 说 ， 如 果 一 个 输入 模 态 用 于 执行 不 相符 的 任 
务 ， 将 只 会 使 得 界面 操作 更 加 复杂 。 

高 效 是 多 模 态 系统 的 一 个 主要 优势 。 不 过 ， 速 度 和 效率 并 不 是 多 模 态 界面 的 仅 有 优势 。 
多 模 态 交 互 的 其 他 重要 优势 还 包括 能 降低 单个 识别 系统 的 错误 率 以 及 能 提高 按照 用 户 意愿 与 
应 用 软件 进行 交互 时 的 灵活 性 。 












































9.6 结语 








在 本 音 中 ， 我 们 已 经 探索 了 如 何 组 合 不 同 的 输入 模 态 可 以 形成 自然 和 表现 力 强 的 多 模 态 
界面 。 我 们 已 经 研究 了 多 模 态 输入 策略 ， 并 提出 了 各 种 能 够 提供 触摸 给 入、 语音 、3D 姿势 、 
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眼睛 凝视 与 跟踪 、 面 部 表情 和 脑 机 接口 的 不 同 组 合 的 多 模 态 界面 。 我 们 还 研究 了 多 模 态 整合 
或 融合 ， 这 是 能 集成 不 同 模 态 的 多 模 态 结构 的 重要 组 成 部 分 ， 通 过 检测 不 同 的 方法 和 集成 水 
平 形 成 一 个 有 凝聚 力 的 界面 。 最 后 ， 我 们 已 经 提出 了 一 些 可 用 性 问题 ， 因 为 它们 与 多 模 态 输 
和 人 相关 。 显 然 ， 多 模 态 界面 距离 Bolt 的 “ 放 在 那里 ”系统 [还 有 很 长 的 路 要 走 。 

然而 ， 各 种 领域 还 需要 更 多 的 努力 ， 包 括 多 模 态 集成 、 识 别 技术 和 可 用 性 ， 以 全 面 文 持 
感知 计算 应 用 ， 从 而 提供 强大 、 高 效 、 表 现 力 强 的 人 机 交互 。 
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10. 1 引言 





在 我 们 这 个 互相 联系 日 益 紧 密 的 社会 中 ,确立 个 人 身份 变 得 越 来 越 重要 。 传 统 的 喘 份 认 
证 都 是 基于 人 们 所 持 有 的 (例如 ,， 令 牌 /门禁 卡 ) 或 人 们 所 知道 的 (密码 )， 而 现在 这 些 已 
经 不 够 用 了 。 生 物 计量 学 是 利用 人 的 生理 特征 或 行为 特征 ， 来 进行 个 人 身份 鉴定 的 科学 。 这 
项 技术 有 效 考察 人 体 固有 特征 ， 为 身份 安全 提供 了 重要 的 解决 方法 。 单 一 模 态 的 生物 特征 识 
别 系统 拥有 其 自身 的 局 限 性 ， 因 而 我 们 往往 需要 一 个 多 模 态 生物 特征 识别 系统 。 这 为 多 模 态 
交互 提供 了 一 个 极 好 的 案例 研究 。 

本 章 将 描述 关于 多 模 态 生物 计量 技术 在 不 同 领 域 运用 中 所 涉及 的 技术 设计 和 可 用 性 ， 这 
包括 从 大 型 多 站 点 边界 控制 到 确保 个 人 便携 式 设备 安全 等 诸多 方面 。 

在 移动 生物 计量 工程 (MOBIO) 背景 下 ,我们 结合 人 脸 和 语音 生物 特征 来 确保 安全 、 
快速 的 用 户 验证 ,保证 请 求 访问 数据 的 人 得 到 授权 。 此 外 ,我 们 也 陈述 了 能 够 使 言 人 用 户 在 
他 们 的 移动 设备 上 使 用 人 脸 生 物 计量 方面 的 经 验 。 为 了 帮助 他 们 捕 提 到 良好 的 人 脸 图 像 ， 我 
们 设计 了 一 个 由 他 们 面部 图 像 质量 和 育 人 用 户 技术 可 用 性 评 佑 系统 驱动 的 音频 反馈 机 制 。 
10.1.1 身份 确认 动机 

每 天 各 处 都 会 有 以 下 这 类 的 问题 “他 (她 ) 真 的 是 他 (她 ) 所 说 的 那个 人 吗 ?” “他 
(她 ) 有 权 访 问 这 个 场所 /资源 /信息 吗 ?” “他 是 官方 所 寻找 的 那个 人 吗 ?” 传 统 上 ， 一 个 人 
的 身份 一 般 是 由 罗 照 、 护 照 或 国家 身份 证 件 进行 验证 。 要 想 访 问 受 保 护 的 资源 ， 只 有 该 人 知 
道 他 /她 的 密码 或 个 人 识别 号 时 才 会 被 授权 。 基 于 令 牌 或 基于 密码 的 吴 份 验证 授权 手段 会 很 
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容易 被 犯罪 分 子 运 用 日 益 复 杂 的 技术 而 利用 。 这 已 经 造成 了 重大 的 经 济 损失 ， 也 造成 了 我 们 
这 个 现代 社会 的 信任 损失 。 人 例如， 根据 Javelin Strategy & Research 报告 S ， 美 国 2012 年 身份 
坎 诈 造成 的 损失 达 210 亿美 元 ， 而 在 英国 ， 据 估算 达 13 亿 英 镑 。 每 年 因 身 份 欺诈 ,世界 各 
地 企业 的 损失 可 达 2210 亿美 元 。 由 此 可 见 ， 对 可 靠 的 用 户 身 份 验证 技术 的 需求 尤为 重要 。 


10. 1.2 生物 计量 学 


在 确定 个 人 身份 方面 ， 生 物 计 量 技术 作为 一 种 合法 的 方法 越 来 越 被 广泛 地 接受 。 今 天 ， 
通过 使 用 虹膜 、 人 脸 和 /或 指纹 以 及 旅行 证 件 提 高 了 边境 控制 的 安全 性 。 然 而 ,单独 使 用 一 
个 生物 计量 系统 往往 是 不 够 的 。 单 模 态 生物 计量 系统 必须 应 对 各 种 问题 ， 例 如 噪声 数据 、 对 
象 内 部 变化 、 采 集 过 程 中 设置 的 自由 度 限制 、 非 普遍 性 ( 即 不 是 每 个 人 都 能 提供 清晰 的 指 
纹 ) 、 坎 骗 攻 击 和 一 些 用 户 不 可 接受 的 错误 率 1 。 噪 声 的 出 现 是 由 于 生物 计量 特征 的 改变 
(例如 ， 寒 冷 所 致 的 声音 改变 ) ， 不 完美 的 传 感 涡 (例如 ， 和 弄 脏 的 传 感 融 ) 或 采集 生物 计量 
特征 的 传感器 所 处 的 环境 〈 例 如 ， 人 脸 图 像 受 照明 条 件 的 影响 ) 。 

改善 系统 鲁 棒 性 的 一 种 方法 是 使 用 多 模 态 生物 计量 技术 。 因 为 不 同 的 生物 计量 方式 受 不 
同 噪声 源 的 影响 ， 与 任何 单一 的 生物 计量 系统 相 比 ， 多 模 态 生物 计量 系统 通常 会 实现 性 能 的 
显著 增益 。 


10.1.3 多 模 态 生物 计量 学 的 应 用 特征 


以 下 所 列 的 是 一 些 需 要 用 多 模 态 生物 计量 方法 解决 的 相关 应 用 的 标准 。 

。 录入 要 求 : 当 一 个 生物 计量 技术 大 规模 推出 时 一 一 例如 ， 在 人 口 层 面 一 一 必须 考虑 
多 个 生物 计量 模 态 。 这 是 因为 由 于 工作 、 健 康 或 残障 原因 ， 用 户 人 口中 有 一 小 部 分 可 能 无 法 
提供 可 用 的 指纹 。 例 如 ， 没 有 右手 的 人 不 能 提供 任何 右手 手指 的 指纹 。 出 于 这 个 原因 ， 大 型 
生物 计量 项 目 ， 如 美国 访客 和 移民 身份 指示 技术 (US - VISIT) 和 唯一 标识 (UID) 项 目 必 
须要 考虑 生物 计量 的 多 种 模 态 来 确保 该 项 技术 在 目标 人 群 中 可 以 被 所 有 用 户 使 用 。 美 国 访客 
和 移民 身份 指示 技术 (US - VISIT) 项 目 要 求 进 入 美国 的 访客 在 人 境 处 必须 提供 左手 和 右手 
食指 的 指纹 图 像 ， 还 有 面部 图 像 ， 而 唯一 标识 (UID) 项 目 使 用 指纹 、 虹 膜 和 面部 生物 计量 
ERPI, 

。 欺骗 的 风险 和 可 行 性 ， 在 涉及 重要 基础 设施 的 应 用 程序 中 ， 入 侵 的 风险 是 极 大 的 ， 
因而 可 以 使 用 多 模 态 生物 计量 技术 。 因 为 多 个 生物 计量 特征 的 运用 会 使 得 利用 受害 者 所 有 生 
物 计量 模 态 的 仿造 或 行 骗 来 非法 获得 设施 的 访问 权 变 得 非常 困难 。 例 如 ， 手 指 静 脉 和 虹膜 的 
生物 计量 方法 很 难 收集 ， 因 此 ， 难 以 用 来 行 骗 。 将 这 些 模 态 与 其 他 的 生物 计量 模 态 相 结 合 可 
以 阻止 针对 生物 计量 传感器 的 恶意 袭击 。 然 而 ， 最 近 的 研究 93 A 表明， 即使 受 攻击 的 风险 降 
低 了 ， 一 个 多 模 态 的 生物 计量 系统 仍然 可 以 容易 受到 恶意 礁 击 。 这 是 因为 如 果 一 个 或 多 个 生 
物 计量 子 系统 被 破坏 ， 那 么 多 模 态 系统 的 性 能 将 会 被 影响 。 
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。 完整 性 要 求 : 一 旦 用 户 成 功 地 通过 验证 和 被 授予 安全 资源 的 访问 权 ， 通常 还 要 确保 
同一 用 户 实际 中 在 使 用 该 系统 。 由 此 ， 在 经 过 初步 验证 后 ， 还 需要 一 个 连续 的 、 非 侵入 性 的 
认证 解决 方案 。 例 如 ， 在 逻辑 访问 控制 中 ， 当 用 户 登 录 到 一 个 安全 资源 时 ， 用 户 使 用 的 终端 
将 尝试 连续 地 验证 用 户 。 这 可 以 防止 攻击 者 访问 系统 ， 而 真正 的 用 户 却 时 不 时 缺席 。Altinok 
和 Turk (2003) °°! 运用 人 脸 、 声 音 和 指纹 描述 了 这 条 思路 的 研究 方法 ;同时 Azzini 等 人 
(2008)19 和 Sim 等 人 (2007) [7 使 用 了 人 脸 和 指纹 的 识别 模 态 。Niinuma 和 Jain (2010) [8 
运用 面部 和 服装 颜色 识别 模 态 来 进行 连续 认证 。 当 面部 不 可 观察 时 ， 后 者 所 提供 的 信息 是 最 
有 用 的 。 

。 精度 要 求 : 用 来 证 实 多 模 态 生物 计量 系统 运用 的 最 苛刻 的 应 用 之 一 是 消极 识别 或 记 
录 的 重复 数据 删除 。 此 举 的 目的 是 防止 身份 的 重复 条 目 。 与 积极 识别 不 同 的 是 ， 消 极 识别 确 
保 一 个 人 在 数据 库 中 的 不 存在 。 该 应 用 的 实例 是 防止 某 人 以 两 个 不 同 的 身份 领取 两 倍 的 社会 
福利 ; 或 防止 被 列 入 黑 名 单 的 人 员 进 入 一 个 国家 。 十指 的 生物 计量 和 图 像 可 以 确保 重复 数据 
删除 精度 高 于 95%， 而 依赖 于 数据 采集 的 质量 ， 虹 膜 模 态 的 加 入 可 以 提高 精度 高 
达 99% 7), 

。 不 受 控制 的 环境 : 大 多 数 生 物 计 量 应 用 程序 需要 用 户 的 合作 ， 然 而 也 有 利 基 应 用 程 
序 并 不 需要 用 户 之 间 的 合作 。 解 决 这 一 问题 的 生物 计量 研究 思路 被 称 为 非 合 作 生物 计量 技 
术 。 通 带 情况 下 ， 受 试 者 与 传感器 之 间 的 距离 有 几米 ， 他 们 可 能 并 没有 意识 到 自己 正在 被 监 
视 。 该 生物 计量 传 感 絮 在 关键 位 置 不 断 跟踪 和 识别 所 有 通过 此 地 的 受 试 者 。 对 于 这 个 应 用 程 
Pe, 通常 需要 几 个 生物 计量 模 态 或 视觉 线索 ， 但 实际 的 识别 机 制 可 能 只 依赖 于 一 个 或 两 个 可 
用 的 生物 计量 模 态 。Li 等 人 (2008) [2 用 一 个 宽 视 场 (FOV) 相机 加 上 两 个 窗 视 场 相机 来 进 
行 海上 监视 中 的 对 象 跟踪 。 如 果 宽 视 场 相机 检测 到 人 的 剪影 ， 一 个 窗 视 场 相机 将 被 激活 拉 近 
到 人 的 面部 ， 另 一 个 将 试图 获得 人 的 虹膜 。 

在 法 医学 的 应 用 程序 中 ，Nixon 等 人 (2010) 500 建议 结合 步 态 和 耳 杀 来 确认 罪犯 。 因 为 
罪犯 往往 会 通过 伪装 或 遮蔽 来 试图 避 开 自己 的 身份 ， 而 步 态 往 往 是 可 用 的 自然 生物 计量 候选 
项 。 同 时 ， 耳 条 的 形状 随 着 时 间 的 变化 几乎 不 会 改变 ， 从 而 使 步 态 和 耳 人 条 的 结合 成 为 了 在 非 
合作 (如 取证 监视 的 身份 识别 ) 的 情况 下 一 个 潜在 的 有 用 法 医学 工具 。 

在 我 们 的 研究 中 ， 我 们 运用 配 有 麦克 风 和 摄像 头 的 通用 移动 设备 解决 了 生物 计量 认证 的 
问题 。 被 称 为 “移动 生物 计量 ”的 该 领域 ， 在 实际 应 用 中 具有 重要 的 作用 ， 因 为 该 生物 计 
量 系 统 可 以 防止 其 他 人 访问 可 能 非常 隐私 和 高 度 敏感 的 数据 ， 如 存储 在 手机 上 的 信息 。 此 
外 ， 生 物 计量 系统 也 可 以 被 用 于 电子 交易 的 认证 机 制 。 这 会 使 得 交易 服务 更 加 具有 价值 ， 也 
会 赢得 更 多 的 信任 。 我 们 的 研究 5 表明 将 说 话 的 人 脸 图 像 与 同时 记录 的 语音 相 结合 的 认证 
性 能 要 比 单独 使 用 任何 生物 计量 方式 更 好 。 上 述 三 个 例子 表明 ， 多 模式 生物 计量 技术 是 有 助 
于 在 不 受 控制 的 环境 中 进行 身份 识别 。 


10.1.4 2D 和 3D 人 脸 识别 
最 普遍 的 生物 计量 方式 之 一 大 概 就 是 脸 部 了 。 甚 至 在 摄影 变 得 普遍 以 前 ， 面 部 的 画像 已 
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经 被 用 于 通缉 犯人 。1882 年 Alphonse Bertillon 发 明了 罪犯 识别 系统 ， 现 在 被 称 为 Bertillon A 
统 ， 该 系统 采集 人 体 尺 寸 ， 以 及 面部 图 像 。 

如 今 ， 摄 像 头 已 经 具备 了 人 脸 检 测 功 能 。 脸 谱 网 提供 了 人 脸 标 签 服 务 ， 在 上 传 的 照片 中 
会 自动 识别 人 脸 。 其 面部 识别 引擎 ， 由 Face. com 正式 提供 ， 但 现在 也 成 了 脸谱 网 的 一 部 分 ， 
它 能 够 在 不 受 约 束 的 环境 中 识别 图 像 i] 。 正 因为 此 ， 以 及 大 多 数 移动 设备 上 都 装 有 人 脸 识 
别 软 件 的 事实 ， 我 们 在 本 节 会 简短 讨论 自动 2D 和 3D 人 脸 的 识别 。 

人 脸 识 别 的 过 程 通常 包括 三 个 主要 阶段 : 检测 ， 特 征 提取 (BRE) 和 分 类 (存储 ) 。 检 
测 阶段 一 般 会 包括 面部 定位 与 规范 化 两 部 分 ， 以 便 处 理 视角 和 光线 的 变化 。 

人 脸 识 别 技术 可 以 依照 所 使 用 的 传感器 类 型 : 图 像 传 感 器 、 摄 像 机 和 深度 传感器 来 进行 
分 类 。2D 面部 识别 是 目前 最 常见 的 面部 识别 类 型 。 图 像 传感器 ， 如 数字 电荷 耦合 器 件 
(CCD) 或 互补 金属 氧化 物 半 导体 (CMOS) 有 源 像 素 传感器 ， 可 以 低 成 本 生产 ， 并 且 体 型 
小 到 可 以 适合 所 有 个 人 装置 。 

早期 的 2D 人 脸 识 别 算法 是 基于 整体 法 ， 如 主 成 分 分 析 (PCA) 一 一 该 方法 的 图 像 显示 
被 称 为 Eigenfaces; 或 ， 线 性 判别 分 析 (LDA) 一 一 由 此 的 面部 显示 称 为 Fisherfaces。 虽 然 
这 两 种 方法 的 结果 是 令 人 满意 的 ， 但 由 于 图 像 的 高 变化 率 ， 使 它们 都 受到 了 2D 普遍 存在 的 
缺陷 的 影响 ， 导 致 它们 都 缺乏 鲁 棒 性 。 

因此 ， 最 终 使 用 的 是 基于 分 块 的 方法 !53] 。 这 些 方法 将 图 像 分 解 成 局 部 区 域 或 分 量 ， 以 
便 通过 分 块 来 识别 图 像 。 随 后 分 量 方式 结果 相 结合 形成 最 终 输 出 假说 。 

基于 视频 的 人 脸 识别 研究 !4,5] 通过 在 一 定时 间 内 考虑 多 幅 图 像 延 作 了 2D 人 脸 识别 ， 
以 消除 在 单一 2D 人 脸 图 像 中 显示 的 不 确定 性 。 虽 然 基于 帧 的 人 脸 识别 方法 采用 时 间 投 票 方 
案 很 常见 ， 但 较为 强 有 力 的 方法 或 以 结合 来 自 图 像 帧 级 的 假设 为 目的 ， 或 以 获取 比 任何 单一 
图 像 具 有 更 高 的 分 辨 率 的 图 像 为 目的 。 后 项 技术 被 称 为 超 分 辨 率 人 脸 识别 1 。 
尝试 克服 头 部 姿势 所 带 来 的 几何 失真 的 男 一 种 方式 是 通过 图 像 弯 曲 的 方式 将 一 个 非 正面 
图 像 弯 曲 成 一 个 正面 图 像 。 主 动 外 观 模型 (AAM) 是 运用 这 种 方式 的 一 种 先进 的 方法 。 
AAM 把 感 兴趣 的 图 像 构 成 有 形状 和 文本 (外观) 的 模型 。 当 应 用 到 面部 图 像 时 ， 兴 趣 点 往 
往 在 人 脸 图 像 周 围 做 手动 标记 ， 从 而 使 面部 特征 随时 被 跟踪 。 正 是 由 于 跟 踊 点 ， 非 正面 的 人 
脸 图 像 可 以 被 弯曲 到 一 个 正面 的 图 像 。 所 得 到 的 弯曲 图 像 往 往 产生 比 原来 非 正 面 的 图 像 更 好 
的 识别 性 能 。 

受到 AAM 的 启发 ， 这 条 思路 的 研究 为 2D 人 脸 识 别 开 发 出 了 3D 模型。Blanz 和 Vetter 
(1999) 中 的 探索 性 研究 提出 了 一 种 3D 形变 模型 ， 该 形变 模型 可 以 使 3D 模型 适用 于 2D 图 
像 ， 这 样 面部 图 像 就 可 以 重新 呈现 任何 视角 。 这 大 大 地 提高 了 无 所 约束 的 2D 人 脸 识 别 。 据 
Face. com™ (MJE Facebook™) 报道 ,在 这 种 方法 的 基础 上 延伸 出 的 另 一 个 方法 使 得 面 
部 识别 从 任意 角度 都 可 以 实现 。 

市 场 上 最 近 推 出 的 “2. 5SD”Kinect 衫 传感器 为 人 机 交互 ， 以 及 人 脸 识别 开辟 了 一 个 新 的 
时 代 。 其 软件 开发 包 ， 被 称 为 “Kinect Identity”， 使 实时 玩家 的 人 脸 瞬 间 识 别 成 为 了 可 能 。 
该 传感器 提供 深度 信息 ， 以 及 一 个 总 是 对 齐 和 同步 的 可 见 性 图 像 。 这 可 以 使 包含 3D 数据 的 
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AD 无 约束 人 脸 识别 5018] 随 着 时 间 的 推移 而 实现 。 
10.1.5 多 模 态 案例 研究 


本 章 的 其 余部 分 ， 我 们 将 对 移动 生物 计量 做 深入 的 案例 研究 。 移 动 设备 是 无 处 不 在 的 ， 
对 于 个 人 通信 来 说 ， 它 是 用 户 容 易 随时 随地 掌握 的 。 

在 移动 设备 上 实现 时 ， 生 物 计 量 有 几 个 潜在 的 应 用 情形 。 首 先 ， 如 果 移 动 设 备 丢失 或 被 
盗 ， 生 物 计量 技术 可 以 阻止 其 被 非法 利用 。 其 次 ， 它 也 可 以 用 于 数字 式 记 录音 频 、 文 本 或 图 
像 文件 ， 为 它们 的 来 源 和 真实 性 提供 证 明 !5?] 。 我 们 把 移动 设备 上 的 生物 计量 认证 称 为 “ 移 
动 生物 计量 ”， 或 MoBio。 

Mobio 项 目 提供 了 一 个 软件 验证 层 ， 运 用 移动 设备 所 捕获 的 你 的 脸 和 声音 ， 确 保 你 是 你 所 
说 的 这 个 人 见 图 10. 1) 。 该 软件 层 不 仅 验证 脸 和 声音 ， 而 且 使 它们 相 结 合 以 使 系统 具有 更 强 
的 鲁 棒 性 。 它 还 会 更 新 系统 模型 ， 允 许 其 随 着 时 间 的 推移 改变 条 件 一 一 这 都 在 消费 级 移动 平台 
的 硬件 限制 中 。 虽 然 其 他 研究 已 经 调查 了 人 脸 和 语音 的 认证 [2 ， 但 Mobio 是 首 个 在 移动 架 














构 提 出 的 挑战 性 条 件 下 〈 例 如 ， 有 限 的 处 理 能 力 ， 摇 晃 的 手持 相机 ) 评估 了 双 模 态 认 证 。 
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数据 融合 特征 单 模 态 模 鼎 数据 融合 双 贷 态 验证 
抽取 比较 

图 10.1 Mobio 身份 验证 系统 计算 捕获 的 正常 化 的 人 脸 和 声音 的 特征 向 量 ， 

与 存储 模型 中 的 特征 进行 对 比 ， 为 改进 的 鲁 棒 性 进行 评分 ， 并 执行 双 模 态 验证 



































该 项 目的 支撑 性 的 关键 技术 组 件 包括 : 

© 误 报 指数 降低 的 快速 人 脸 检测 [| 。 

© 在 诺基亚 N900 移动 设备 上 实现 的 高 效 面部 特征 定位 算法 ,按照 帧 速率 性 能 运行 [3] 。 

。 为 改进 了 的 人 脸 验证 提供 图 像 描述 符 [*,”] 。 

。 使 用 空间 因子 方法 的 一 种 全 新 特点 的 说 话 人 验证 76) ， 使 从 会 话 变异 中 解 耦 核心 说 
话 人 的 识别 方法 与 有 限 的 训练 数据 相 结合 [271 。 

。 一 种 基于 参考 文献 【28 ] 中 更 大 范围 捕获 的 分 级 分 类 需 融 合算 法 EER 











第 10 章 ”生物 计量 学 中 的 多 模 态 交互 : 技术 与 可 用 性 挑战 ”267 


10.1.6 适应 于 盲人 对 象 


有 几 个 工程 ， 以 及 用 户 交 互 ， 都 对 移动 生物 计量 具有 挑战 性 。 从 工程 的 角度 来 看 , 与 台 
式 计算 机 相 比 ， 相 对 降低 的 计算 能 力 会 使 实现 移动 生物 计量 变 得 困难 ( 即 内 存 小 ， 计 算 能 
低 ， 有 限 的 支持 浮 点 计算 ) 。 由 于 设备 的 便携 性 和 随时 随地 的 使 用 方式 ， 所 捕捉 的 生物 计量 
数据 可 能 质量 不 会 很 好 。 例 如 ， 大 家 都 知道 ， 在 一 个 嗜 杂 环境 录制 的 语音 ,语音 识别 的 性 能 
会 严重 退化 13]， 

从 用 户 交互 的 角度 来 看 ， 以 下 因素 会 使 移动 生物 计量 问题 困难 重重 : 

e 依赖 用 户 的 技能 : 整个 捕捉 脸 和 语音 生物 计量 的 过 程 都 依赖 于 用 户 的 技能 。 

。 身体 残疾 的 用 户 : 有 视觉 缺陷 的 用 户 很 可 能 会 被 生物 计量 验证 的 移动 设备 所 排除 。 

关于 最 后 一 点 ， 据 世界 卫生 组 织 统计 ， 全 球 有 超过 1. 61 亿 的 人 有 视 障 ， 它 们 中 的 大 多 
数 都 是 老人 呈 。 考 虑 到 很 多 用 户 可 能 会 受到 视力 缺陷 的 影响 ， 我 们 将 在 本 章 的 10. 2 节 阐 述 
这 个 问题 。 

因此 , 在 平行 于 Mobio 的 发 展 中 ,我 们 还 探讨 了 盲人 用 户 要 如 何 适 用 该 平台 。 从 一 开 
始 ， 我 们 发 现 面 部 生物 计量 将 极 具 挑战 性 ， 因 为 盲人 用 户 无 法 运用 视觉 提示 得 知 相 机 捕捉 到 
自己 脸 部 的 图 像 是 如 何 的 。 

虽然 人 脸 识别 技术 的 改善 表明 了 光照 不 好 可 以 补救 [3 ， 非 正面 的 姿势 可 以 矫正 52] ， 
但 图 像 复 原 过 程 始终 都 不 能 使 人 满意 。 

此 外 ， 面 部 表情 的 变化 也 会 对 识别 性 能 产生 负面 影响 。 在 这 些 因 素 中 ， 头 部 姿势 可 以 说 
是 最 难以 纠正 的 ， 因 为 一 个 完美 的 恢复 过 程 非常 复杂 ， 计 算 代价 也 相当 高 [31 。 

图 10. 2 对 于 为 什么 头 部 姿势 可 能 会 严重 影响 人 脸 识别 系统 给 出 了 直观 的 解释 。 根 据 所 
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相似 度 评分 

图 10.2 头 部 姿态 对 人 脸 识 别 系统 的 影响 。 更 高 的 相似 度 分 数 意味 着 与 真实 身份 更 相似 。 
头 部 姿势 变化 ， 自 由 度 就 增加 ， 相 似 度 评分 就 很 可 能 降低 ， 最 终 导致 身份 要 求 的 误 拒 











© 来源: http: //www. who. int/blindness/causes/magnitude/en。 原 书 注 
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给 出 的 数据 ， 对 于 一 个 完全 正面 的 姿势 ， 系 统 给 出 的 所 加 工 的 面部 图 像 属于 称 之 为 自己 的 真 
人 具有 很 高 的 可 能 性 。 然 而 ， 只 要 姿势 有 所 改变 ， 可 能 性 评分 值 就 会 降低 ， 并 接近 骗子 的 可 
能 性 〈 低 分 数 意味 着 图 像 属于 骗子 ) 。 可 以 观察 到 , 两 个 轴 上 头 部 姿势 的 变化 〈 平 移 和 倾 
斜 ) 对 分 数 的 影响 超过 一 个 轴 上 头 部 姿势 的 改变 (倾斜 ,本 例 中 )。 

10.1.7 本 章 结构 


我 们 将 在 10.2 节 介 绍 Mobio 平台 的 设计 挑战 ,然后 在 10. 3 市 中 阐述 了 盲人 对 和 象 通过 音 
频 反 馈 运 用 平台 的 问题 。 紧 接着 是 10.4 节 的 讨论 和 结论 。 


10.2 ”对 移动 生物 计量 平台 的 应 用 剖析 




















10. 2. 1 面部 分 析 


10. 2. 1.1 面部 检测 

为 了 获得 用 户 的 外 形 ， 我 们 以 包括 ( 某 些 位 置 ) 用 户 的 面部 的 一 个 图 像 为 开端 ， 并 且 
对 在 图 像 中 的 面部 进行 定位 ， 这 样 就 可 以 对 它 的 位 置 和 大 小 进行 大 概 的 估算 (DLA 10. 3)。 
这 个 过 程 很 困难 ， 因 为 在 图 像 中 的 外 形 差异 很 大 ， 并 且 我 们 的 系统 一 定 是 在 不 考虑 形状 、 大 
小 、 身 份 、 肤 色 、 表 情 以 及 光照 等 条 件 下 对 面部 进行 检测 。 理 想 状 态 下 ， 它 应 该 处 理 不 同 的 
定位 与 遮蔽 问题 。 但 是 ， 在 移动 验证 中 ， 我 们 假定 这 个 人 大 多 数 时 间 差 不 多 都 在 直 视 摄 
像 头 。 

通过 对 图 像 的 每 一 个 区 域 进 行 分 类 ， 把 它 分 成 面部 与 非 面部 ， 并 且 使 用 现代 的 模式 识别 
方法 从 而 学 会 区 别 面部 与 非 面 部 的 图 像 特征 ， 这 样 我 们 就 可 以 很 好 地 解决 这 一 问题 。 同 时 还 








要 考虑 两 点 : 一 个 是 如 何 概述 以 一 种 压缩 结构 形成 的 图 像 区 域 ( 即 计 算 它 的 特征 矢量 )， 男 
一 个 是 如 何 把 基于 它 的 特征 的 图 像 区域 进 行 分 类 。 
IUR ar 被 检测 的 商 部 


子 窗口 图 例 特征 抽取 





第 二 层 





被 拒绝 的 面部 
图 10.3 一 个 窗口 在 整个 图 像 中 滑动 ， 然 后 在 下 面 的 区 域 被 取样 并 分 解 成 一 个 特征 矢量 。 这 个 特 
征 矢量 注入 到 一 个 简化 的 分 类 器 ， 这 个 分 类 器 会 拒绝 明显 的 非 面部 。 接 着 ， 被 接受 的 子 窗口 注入 一 系 
列 更 复杂 的 分 类 器 直到 所 有 的 非 面部 被 拒绝 ， 最 终 留 下 真正 的 面部 
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当 我 们 搜索 图 像 的 时 候 ， 面 部 可 能 存在 的 位 置 成 二 上 万 ， 并 且 很 重要 的 是 ， 每 一 个 图 像 
区 域 都 应 该 很 快 被 总 结 。 通 过 使 用 局 部 二 进 制图 案 (Local Binary Pattern) 1 中 的 一 个 变量 ， 
我 们 可 以 总 结 出 围绕 在 每 个 像素 的 局 部 图 像 统计 ， 同 时 二 进 制 码 可 以 指示 关于 它 的 8 个 邻近 
的 图 像 梯 度 方向 。 然 后 ， 对 于 每 一 个 补丁 产生 变换 后 的 数值 用 柱状 图 来 计算 ， 并 将 它 放 入 一 
个 分 类 器 去 选择 这 一 补丁 是 “面部 ”或 者 “ 非 面 部 ”。 在 实践 中 ， 我 们 使 用 非常 复杂 的 分 类 
器 冲 联 :5 来 拒绝 大 部 分 图 像 区 域 (那些 看 起 来 像 面 部 实际 什么 都 不 是 的 图 像 ) 。 在 研究 里 
期 ， 我 们 使 用 的 是 简单 但 又 非常 有 效 的 各 种 分 类 器 。 对 于 看 起 来 和 面部 最 接近 的 更 加 有 挑战 
性 的 图 像 区 域 ， 我们 保留 了 更 加 精准 并 对 运算 要 求 非常 高 的 分 类 絮 以 备 之 需 。 

我 们 对 关于 标准 的 数据 集 (例如 ，BANCA 和 XM2VTS) 的 实验 表明 了 上 述 这 些 方 法 对 
真实 面部 的 检测 正确 率 超过 97% 。 然 而 ， 在 我 们 的 应 用 中 也 会 提示 用 户 把 自己 的 面部 呈现 
在 图 像 正中 央 。 这 样 我 们 就 可 以 把 研究 缩小 到 更 小 的 一 个 区 域 ， 由 此 进一步 降低 测试 错误 
率 ， 并 且 人 允许 更 多 的 判别 图 像 表示 来 提高 检测 率 。 

为 了 拓展 这 一 基线 系统 ， 我 们 开发 了 一 个 原则 系统 。 这 一 系统 可 以 呈 指 数 级 降低 检测 错 
误 率 (背景 区 域 被 错误 地 认为 是 “面部 ”)， 并 在 同一 张 真实 面部 周围 形成 很 多 检测 集群 ， 
而 且 几 乎 不 会 降低 真实 的 接受 率 [211 。 

10.2.1.2 面部 标准 化 

虽然 我 们 能 够 大 概 地 从 图 像 中 的 面部 周 于 的 长 方形 图 像 区 域 来 识别 用 户 ， 但 是 还 是 有 
些 因 素 会 影响 到 性 能 ， 例 如 ， 背 景 杂 波 、 照 明和 面部 表情 等 。 因 此 ， 我 们 通过 把 面部 标准 化 
来 去 除 所 有 可 能 产生 的 影响 ， 以 便 使 其 与 用 户 的 存储 模式 具有 相似 的 属性 (在 形状 和 纹理 
方面 ) ( 见 图 10.4) 。 首 先 ， 我 们 对 个 人 的 面部 特征 进行 定位 ， 例 如 ， 有 眼睛、 鼻子、 嘴巴 和 
下 巴 ， 并 且 使 用 这 些 特征 来 去 除 所 有 不 相关 的 背景 。 其 次 ， 我 们 把 这 一 面部 进行 拉 伸 到 适合 
之 前 定义 好 的 形状 ， 由 此 来 弥补 由 这 些 人 朝向 的 方向 、 他 们 的 表情 、 他 们 面部 的 形状 (一 
个 弱 的 验证 提示 ) 所 产生 的 差异 。 最 终 ， 我 们 通过 调整 亮度 使 照明 标准 化 并 且 与 一 些 固定 
值 进 行 对 比 。 为 了 进行 精准 鉴定 ， 生 成 的 图 像 能 够 直接 与 类 似 标准 化 的 模型 图 像 对 比 。 
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图 10.4 从 训练 数据 中 估计 得 出 的 形状 和 纹理 的 数据 模型 ， 并 上 能 入 一 个 使 用 主动 外 观 模型 (Ac- 
tive Appearance Model) 的 图 像 。 然 后 ， 该 基础 图 像 可 以 被 抽样 进而 去 除 背景 信息 ， 也 可 被 弯曲 来 去 除 
不 相关 的 形状 信息 〈 例 如 ， 由 于 表情 产生 的 形状 信息 ) ， 并 标准 化 亮度 和 对 比 度 
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为 了 定位 面部 特征 ， 我 们 通过 使 用 一 个 主动 外 观 模型 (Active Appearance Model) 的 新 

版 本 把 可 变形 模型 放 进 图 像 里 。 主 动 外 观 模型 使 用 了 现代 机 器 学 习 技 术 !23] ， 是 专门 为 移动 
架构 开发 的 。 主 动 外 观 模型 使 用 形状 oe 

面部 ， 这 些 数 据 模型 是 从 一 系列 有 着 手工 标记 的 特征 部 位 的 训练 模型 学 到 的 。 同 时 ， 它 还 

习 检 测 模 型 何 时 处 于 错误 的 位 置 ， 并 且 去 纠正 各 种 参数 以 便 使 模型 和 图 像 保持 对 齐 。 STH 

测 这 些 修 改 ， 我 们 训练 了 一 个 线性 回归 来 学 习 样 本 图 像 数据 与 真正 参数 值 之 间 的 关系 ， 这 是 

通过 使 用 已 知 错位 量 的 各 种 图 像样 本 来 完成 的 。 

当 把 该 模型 能 入 新 图 像 时 ， 我 们 首先 把 这 一 模型 与 粗略 的 面部 检测 结果 校准 ， 然 后 抽样 
并 标准 化 图 像 的 对 应 部 分 ( 见 图 10.4) 。 之 后 ,我 们 预测 并 对 形状 进行 修正 ， 使 用 各 种 参数 
来 使 模型 与 图 像 对 齐 。 通 过 反复 多 次 “样本 -预测 - 修正 ”的 循环 ， 我 们 聚合 于 真实 特征 
的 位 置 ， 为 鉴定 提供 一 个 标准 化 的 纹理 样本 。 

与 主动 外 观 模 型 相 比 ， 我 们 的 方法 能 达到 类 似 的 效果 甚至 精度 更 高 (通常 两 眼 之 间 的 
距离 在 6% 的 范围 内 )。 然 而 ,用 诺基亚 NOOO 能 够 达到 三 倍 的 加 速 比 ， 把 过 程 时 间 从 
44. 6ms 降 到 13. 8ms， 因 此 最 终 达 到 帧 率 性 能 i!”]。 虽 然 该 性 能 使 用 了 由 公开 数据 库 训练 的 
模型 ， 可 以 通过 反复 训练 预测 需 ( 线 上 或 者 线 下 ) 而 适应 特定 用 户 , 但 是 我 们 的 结论 表明 
相 比 额外 增加 的 计算 成 本 ， 该 性 能 并 未 得 到 很 大 的 改善 。 

10.2.1.3 面部 确认 

考虑 到 面部 的 标准 化 图 像 ， 最 后 的 一 个 步骤 就 是 要 给 予 一 个 分 数 来 描述 它 对 于 声称 号 份 的 
存储 模型 的 匹配 程度 ， 并 使 用 这 一 分 数 去 决定 是 a ( 见 图 10.5). 
同样 的 ， 我 们 把 这 个 看 作 是 一 个 分 类 问题 ,但 是 基于 总 结 关 于 他 们 外 形 的 图 像 特征 ， 我 们 想 要 
把 当事人 标记 为 一 个 客户 或 者 骗子 。 a TRR, MSR AAT A 
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图 10.5 剪裁 的 面部 窗口 被 细 分 为 很 多 模块 ， 每 一 模块 使 用 局 部 二 进 制图 案 在 不 同 尺度 进行 处 
理 。 之 后 ,我 们 可 以 在 柱状 图 里 捕捉 到 局 部 二 进 制图 案值 的 分 布 ， 在 与 存储 模型 对 比 之 前 ， 我 们 拼接 
并 降低 柱状 图 维度 (例如 ， 通 过 主 成 分 分 析 ) 
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因为 光照 条 件 会 影响 外 形 ， 因 此 我 们 应 用 了 伽 马 校 正 、 高 斯 差 滤 波 与 方差 均衡 来 去 除 尽 
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可 能 多 的 照明 影响 。 对 于 增加 的 鲁 棒 性 ， 我 们 随后 把 处 理 过 的 图 像 再 分 成 非 重 着 子 窗口 ， 使 
描述 符 对 遮挡 的 处 理 更 稳定 ， 并 在 3 个 尺度 上 对 每 个 像素 的 局 部 二 进 制图 案 (LBP) 值 进行 
计算 。 然 后 通过 使 用 LBP 柱状 图 对 每 一 个 窗口 进行 总 结 ， 并 使 用 串联 的 柱状 图 作为 整个 图 
像 的 特征 向 量 ( 见 图 10. 5)。 

为 了 对 观测 到 的 特征 向 量 进行 分 类 ， 我 们 计算 出 它 与 声称 身份 的 存储 模型 的 差异 。 虽 然 
我 们 能 够 仅仅 基于 类 似 测量 而 做 出 决定 ,但 是 我 们 使 用 了 和 鲁 棒 似 然 比 ， 其 中 与 背景 模型 的 距 
离 说 明了 观察 结果 与 声称 身份 的 匹配 程度 高 于 平均 值 ， 这 就 印证 了 我 们 对 分 类 的 信心 。 通 过 
这 一 方法 ,我 们 能 够 达到 BANCA 数据 集 大 约 5% 的 总 错误 率 的 一 半 (其 中 错误 接受 率 可 能 
和 错误 拒绝 率 相同 ) 。 

同时 我 们 还 开发 了 一 系列 可 以 提高 识别 性 能 的 新 式 图 像 描 述 符 。 其 中 之 一 是 基于 局 部 相 
位 量化 (Local Phase Quantization) 的 一 个 图 像 描 述 符 ， 用 于 散 焦 图 像 并 且 对 一 个 模糊 的 人 
脸 图 像 实现 了 93.5% 的 识别 率 (与 之 相 比 ， 局 部 二 进 制图 案 只 能 达到 70.1% ) 524] 。 进 一 步 
开发 这 个 描述 符 使 之 包含 多 尺度 的 信息 ， 我 们 在 一 个 含有 大 范围 不 同 照明 情况 的 更 具 挑 战 性 
的 数据 集 里 把 识别 率 从 66% 提高 到 80% 5, 


10.2.2 语音 分 析 


虽然 人 脸 验证 技术 日 至 成 熟 ， 但 是 同时 我 们 也 发 现 一 个 事实 : 我 们 可 以 纳入 基于 语音 的 
扬 声 右 验证 来 更 好 地 利用 有 可 供 支 配 使 用 的 麦克 风 。 

10. 2. 2. 1 语音 活动 检测 

给 定 一 个 使 用 手机 麦克 风 录 人 制 的 声音 样本 ， 我 们 的 首要 任务 是 从 背景 噪声 (对 声音 识 
别 无 用 ) 中 分 离 出 语音 〈 对 声音 识别 有 用 ) 。 然 而 ， 与 人 脸 识 别 相 比 ， 语 音 识别 会 因为 受到 
各 种 因素 的 影响 而 复杂 化 ， 这 些 因 素 包 括 说 话 者 的 声 道 、 生 活 习 惯 以 及 使 用 语言 等 方面 的 特 
征 。 同 一 说 话 者 不 同时 域 的 语音 输出 也 不 相同 (例如 发 生 感冒 ) 。 

为 了 对 一 位 说 话 者 的 声音 进行 综述 ， 我 们 通过 一 个 特征 向 量 概述 了 在 给 定时 间 内 的 一 个 
小 窗口 (以 数 十 毫秒 为 单位 ) 的 频率 特征 ， 并 以 声 道 形 状 呈 现 这 一 变量 。 有 具体 来 说 ， 我 们 
运用 倒 谱 分 析 来 计算 经 由 一 个 传 里 叶 变 换 (Fourier Transform) 得 出 的 频谱 ， 并 且 通 过 第 二 
个 傅 里 叶 变 换 分 解 它 的 对 数 ， 在 第 二 次 分 解 之 前 把 频谱 映射 到 梅 尔 尺度 中 (其 中 距离 更 密 
切 地 匹配 音 高 感知 差异 ) ， 求 出 梅 尔 频率 倒 谱系 数 (MFCC). 

然后 我 们 使 用 高 斯 混合 模型 (GMM) 来 对 一 个 特征 向 量 进行 分 类 ， 分 为 言语 与 非 言语 ， 
不 考虑 特征 向 量 的 时 间 顺 序 和 低 通 过 率 影 响 的 输出 。 虽 然 这 个 已 经 被 证 明 对 高 信 噪 比 是 一 个 
有 效 的 方法 ,但 是 有 大 量 背 景 噪声 的 环境 还 需要 使 用 耗费 更 多 信号 能 量 的 更 复杂 方法 。 

因此 我 们 使 用 了 人 工 神经 网 络 (Artificial Neural Network) 对 MFCC 向 量 进行 分 类 ， 这 
些 向 量 来 源 于 约 300ms 的 更 长 时 间 语 境 ， 被 分 类 成 29 个 音素 之 一 ， 或 是 被 分 类 成 非 言语 ， 
最 终 得 出 与 30 类 对 应 的 后 验 概 率 向 量 结果 。 这 些 向 量 随 着 时 间 推 移 变 得 平滑 ， 通 过 使 用 隐 
马尔 可 夫 模 型 (Hidden Markov Model) 来 检测 从 训练 数据 中 习 得 的 (具体 语言 的 ) 已 知 频 
率 的 音素 顺序 ， 之 后 29 个 音素 类 得 到 整合 ， 进 而 形成 “言语 ”样本 。 
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由 于 这 一 方法 在 计算 上 的 要 求 非常 高 (因此 对 于 舰 入 式 导 入 不 大 适合 ) ， 我 们 提出 建立 
一 个 更 简易 的 特征 集 ， 记 为 “升级 二 进 制 特征 ” (Boosted Binary Features) [Roy et al. 
(2011b) ] ， 它 是 基于 过 滤 反 应 对 之 间 的 关系 ， 它 也 实现 了 至 少 与 现存 各 方法 一 样 的 不 错 性 
能 (40 多 种 可 能 音素 的 正确 分 类 大 约 为 65% ) ， 但 是 仅 要 求 适 度 的 运算 量 。 

10. 2.2.2 说 话 者 验证 

不 考虑 背景 噪声 ， 我 们 能 够 使 用 有 用 的 言语 分 段 来 计算 这 个 人 的 声音 与 声称 身份 的 匹配 
程度 ， 决 定 是 否 接受 还 是 拒绝 他 们 的 申请 。 

为 了 描述 这 一 声音 ， 我 们 运用 了 19 种 MFCC (超过 20ms 窗口 计算 ) 和 一 个 能 量 系数 ， 
每 个 系数 与 其 第 一 个 和 第 二 个 导数 增长 。 在 通过 声音 活动 检测 移 除 了 沉默 帧 之 后 ， 我 们 对 
300 多 个 帧 实施 了 短 时 倒 谱 均值 法 和 方差 归 一 法 。 

为 了 对 申请 人 的 特征 向 量 进行 分 类 ， 我 们 运用 了 基于 高 斯 混合 模型 参数 的 联合 因子 分 析 
法 (Joint Factor Analysis) 作为 基准 。 其 中 混合 构成 物 的 加 权 与 协 方差 在 开始 时 就 被 最 优化 ， 
但 是 中 心 被 设 定 为 数据 的 函数 。 这 些 加 权 值 、 协 方差 和 平均 值 是 通过 学 习 一 个 大 型 的 多 人 语 
音 集合 而 获得 的 ， 且 主体 子 空间 是 通过 使 用 已 知 说 话 者 的 数据 库 习 得 的 ， 包 括 综合 不 同 会 话 
时 期 的 话语 以 减少 时 期 间 的 差异 。 而 时 期 子 空间 则 是 从 剩 下 的 部 分 习 得 。 

测试 时 ， 我 们 使 用 每 一 个 训练 例子 来 估算 说 话 者 与 会 话 时 期 ， 并 且 使 通用 模型 适用 于 特 
定 用 户 的 模型 。 然 后 我 们 不 考虑 时 期 估算 ( 因为 时 期 匹配 并 非 我 们 的 目标 ,我 们 的 目标 是 
说 话 者 匹配 ) ， 并 且 根 据 具体 说 话 者 的 模型 来 计算 出 测试 例子 的 相似 度 。 然 后 使 用 量化 归 一 
法 作为 分 类 的 手段 。 

在 BANCA 数据 集 里 ， 该 基准 系统 达到 了 对 说 话 者 验证 的 约 为 3% ~4% 的 等 错误 率 。 但 
是 我 们 证 明了 我 们 能 够 改进 相关 的 i 向量 的 佑 算 方法 〈 说 话 者 识别 技术 的 最 新 发 展 ) ， 使 说 
话 者 建 模 的 速度 加 快 25 ~50 倍 ， 而 仅仅 使 用 10% ~ 15 儿 的 内 存 ， 而 且 仅 会 对 性 能 造成 微小 
的 影响 〈 通 常 增加 的 等 错误 率 为 3% ~4% 1251 ) 。 

同时 ， 我 们 还 演示 了 从 时 期 变化 模型 中 去 除 核心 说 话 者 识别 模型 的 过 程 ， 这 样 我 们 就 可 以 
分 别 最 优化 两 种 模型 ， 并 且 在 有 限 的 训练 数据 条 件 下 得 到 一 个 更 为 稳定 的 系统 ， 且 对 性 能 造成 
很 小 或 者 零 影 响 [31。 最 终 , 我们 展示 了 使 用 成 对 的 特征 实现 了 17.2% 的 半 总 错误 率 
(HTER) ， 高 于 跨越 了 17 个 其 他 系统 的 平均 15. 4% 的 HTER， 但 是 比 其 有 效 100 ~ 1000 17757! 。 


10.2.3 ”模型 适应 


生物 计量 验证 中 的 一 个 挑战 是 适应 随 着 时 间 变 化 而 改变 的 人 的 外 貌 一 一 不 管 是 主观 的 
(如 个 人 打扮 ) 还 是 客观 的 〈 如 皱纹 ) ， 以 及 适应 环境 中 的 会 影响 识别 性 能 的 外 部 影响 ( 如 
光照 、 背 景 噪声 ) 。 因 此 ， 在 初创 时 的 用 户 模型 并 不 是 固定 的 一 一 它 必须 适应 当前 情况 并 调 
整 相应 的 标准 来 做 出 接受 或 是 拒绝 的 正确 判断 。 

在 面部 验证 的 实验 中 ,我 们 开始 于 从 包含 多 人 的 训练 数据 中 建立 一 个 外 形 通 用 的 模型 。 
这 有 助 于 构建 出 没有 出 现在 个 人 录入 数据 中 的 光照 和 头 部 姿势 的 模型 。 然 后 我 们 根据 各 个 特 
定 用 户 改 变 该 通用 模型 ， 调 整 基于 用 户 具体 的 训练 数据 的 模型 参数 。 在 我 们 的 案例 中 ， 使 用 
了 高 斯 混合 模型 来 呈现 容貌 ， 因 为 它 可 以 容忍 定位 误差 。 同 时 ， 我 们 又 再 一 次 地 改编 了 该 模 
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型 来 响应 任何 在 拍摄 条 件 中 可 能 发 生 的 变化 。 

为 了 说 明 拍 摄 环境 的 变化 (例如 BANCA 数据 库 含 有 在 可 控 的 、 不 利 的 和 降级 的 条 件 下 
拍摄 的 例子 ) ， 在 训练 中 ， 我 们 对 每 一 个 条 件 计算 了 错误 分 布 的 参数 *， 并 且 使 用 了 分 数 归 
一 法 ， 如 Z -norm ， 

















Zu(7) = 一 (10. 1) 

q 

或 者 基于 贝 叶 斯 归 一 法 〈 通 过 逻辑 回归 完成 ) : 
P(gly) = (10.2) 


1+ exp( Qay - Ba) 

来 减少 拍摄 环境 的 影响 ( 式 中 , wy. OG. Oy, Ba 是 通过 学 习 估算 的 参数 ) 。 测 试 中 ， 我 们 计 
算 了 与 当前 环境 最 接近 的 、 可 以 被 信号 质量 识别 的 已 知 环 境 ， 并 且 根 据 情况 调试 了 分 类 器 
评分 。 

在 实验 '31 中 ， 分 数 标 准 化 在 一 些 测试 中 降低 了 20% ~ 30% 的 等 错误 率 (对 于 面部 从 
19. 5% 降 到 15.31% ; 对 于 言语 从 4. 8% 降 到 3.38% ) 。 然 而 使 模型 适应 拍摄 条 件 对 性 能 产生 
了 更 大 的 效果 ， 在 一 些 实验 中 降低 了 高 于 50% 的 等 错误 率 (对 于 面部 从 19.37% 降 到 
9.69% ; 对 于 言语 从 4.8% 降 到 2. 29% ) 。 


10.2.4 数据 融合 


至 此 ， 视 频 序列 中 的 每 个 样本 得 出 的 评分 都 可 以 说 明 申 请 人 与 其 声称 的 身份 的 相似 度 ， 
男 一 个 分 数 说 明 他 们 的 声音 与 声称 身份 的 相似 度 。 为 了 给 出 一 个 生物 计量 本 身 表现 更 为 出 色 
的 系统 ,我 们 融合 这 两 个 模 态 ， 通 过 对 每 个 模 态 单独 地 进行 分 类 并 且 把 分 数 结果 对 馈 和 到 男 
一 个 分 类 器 中 (分数 级 融合 ) ， 或 者 通过 把 特征 融合 并 传送 到 一 个 单独 的 分 类 器 中 (特征 级 
融合 ) 。 因 为 我 们 关注 的 是 视频 序列 ， 所 以 在 一 段 时 间 内 对 融合 分 数 (或 者 特征 ) 有 益处 。 

一 个 天 真 的 方法 就 是 通过 求 序列 的 平均 值 而 融合 分 数 级 数据 。 更 有 理论 依据 的 方法 是 对 
观察 序列 的 分 数 分 布 建 模 ， 并 将 其 与 各 种 从 训练 数据 中 获得 的 与 正确 和 错误 匹配 对 应 的 分 布 
进行 对 比 。 我 们 对 分 数 分 布 的 非 参数 统计 (例如 ， 均值、 方差 和 内 部 的 四 分 位 范围 ) 进行 
了 计算 ， 以 此 作为 基准 ， 并 通过 使 用 逻辑 回归 获得 的 分 类 器 把 正确 和 错误 的 匹配 分 开 。 同 
理 ， 我 们 运用 分 数 归 一 法 确保 来 自 于 不 同感 知 模 态 的 输出 具有 可 比 性 ， 同 时 还 要 把 信号 质量 
考虑 进去 [3 。 

虽然 使 用 专属 软件 〈 其 中 内 部 分 类 咒 操作 被 隐藏 ) 时 分 数 级 融合 很 受 欢 迎 ， 但 是 特征 
融合 法 能 够 捕捉 到 两 种 模 态 之 间 的 关系 。 然 而 特征 融合 可 能 导致 产生 一 个 大 型 的 联合 特征 空 
间 ， 其 中 “维度 灾难 ”成 为 难题 。 并 且 在 不 同 采样 率 〈 例 如 ， 视频 和 音频 ) 进行 融合 源 时 
我 们 必须 要 非常 谨慎 。 

因此 ， 我 们 开发 了 一 个 新 的 特征 级 融合 方法 ,命名 为 “升级 层次 分 类 器 ”" ， 它 能 搜索 特征 
对 空间 (一 个 面孔 和 一 个 言语 片段 ) 来 找到 二 次 判别 分 析 (QDA) 最 小 化 的 错误 分 类 率 ， 在 
该 过 程 中 迭代 地 对 训练 样本 重复 加 权 。 虽 然 这 一 方法 在 控制 条 件 下 只 会 产生 轻微 效果 ， 但 是 在 
一 种 模 态 被 破坏 时 它 会 优 于 基准 的 分 数 级 融合 系统 ， 表 明 融 合 确实 会 增加 系统 的 鲁 棒 性 。 

在 男 一 个 实验 中 ， 如 检测 误差 权衡 曲线 (Detection Error Tradeoff curves) ( 见 图 10. 6a) 
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所 示 9 ， 融 合 模 态 的 益处 是 更 为 明显 的 。 这 说 明 对 于 变化 的 分 类 器 分 数 的 闷 值 ， 在 错误 拒绝 
率 和 错误 接受 率 之 间 做 出 的 权衡 关系 一 一 接受 更 多 的 申请 人 可 以 降低 错误 拒绝 率 但 是 会 增加 
错误 接受 率 (反之 亦 然 )。 


10.2.5 移动 平台 实施 


为 了 在 移动 设备 上 运行 这 一 系统 ， 我 们 需要 考虑 可 用 的 硬件 的 各 种 缺陷， 例如 ， 低 功率 
处理 、 单 一 固定 点 结构 和 有 限 的 内 存 。 因 此 ， 我 们 需要 开展 关注 精准 性 效果 的 实验 ， 从 而 计 
算出 能 使 这 个 系统 更 为 有 效 的 近似 值 。 

一 个 非常 有 效 的 修正 就 是 通过 运用 固定 点 (而 不 是 浮 点 ) 运算 来 实施 尽量 多 的 方法 。 虽 
然 一 些 现代 设备 配备 有 浮 点 单元 ,但 是 它们 并 不 常见 而 且 效 率 低下 。 其 他 可 以 减少 计算 的 方法 
还 包括 对 于 面部 检测 运用 早期 停止 准则 ， 并 且 减 少 面部 特征 定位 中 没有 的 循环 量 。 由 于 减少 内 
存 消耗 同时 也 对 性 能 有 益处 ， 所 以 我 们 通过 减少 参数 来 进一步 完善 ， 例 如 ，LBP 尺度 的 数量 、 
特征 向 量 的 维度 以 及 语音 识别 所 用 的 高 斯 混合 分 量 的 数量 。 作 为 这 些 近似 值 的 量化 评估 ,我们 
按照 两 个 标准 对 1296 个 尺度 体系 (48 张 面孔 x27 个 言语 片段 ) 进行 评 佑 : 一 个 既 可 以 反映 内 
存 消耗 还 可 以 反映 速度 的 抽象 成 本 标准 ， 以 及 一 个 由 等 错误 率 测量 的 结果 泛 化 性 能 。 果 然 ， 有 
效 性 的 提高 以 牺牲 精准 度 为 代价 ， 然 而 激增 的 复杂 性 导致 了 受益 其 小 (ILEI 10. 6b)。 
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a) 
10.6 a) 测试 MoBio 数据 库 得 出 的 单 模 态 和 融合 双 模 态 系统 的 检测 误差 权衡 (Detection Error 





Tradeoff) 曲线 ; 图 示 表 明 对 数 刻 度 上 的 错误 接受 率 和 错误 拒绝 率 ， 这 是 就 范围 内 一 系列 决定 净值 而 言 
的 ， 其 中 处 于 下 方 的 左边 点 是 最 理想 的 。 在 给 定 的 曲线 上 的 等 错误 率 (EER) 位 于 曲线 和 直线 y = x 相 
交 之 处 。b) EER 与 各 尺度 系统 的 有 效 性 的 对 比 ， 确 认 了 获取 更 高 的 精度 是 要 付出 代价 的 ， 定 义 为 两 个 
比例 〈 内 存 消耗 以 及 时 间 花 费 ) 中 的 相对 于 基准 线 系统 下 方 的 值 



































O DET 曲线 显示 与 接收 器 工作 特性 (ROC) 曲线 相同 的 变量 , 但 是 在 对 数 尺度 上 ; 这 使 得 曲线 几乎 是 线性 的 ， 并 
给 出 了 更 均匀 的 点 分 布 ， 使 得 解释 更 容易 。 一 一 原 书 注 
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为 了 在 真正 的 条 件 下 测试 这 一 系统 ， 我 们 为 诺基亚 N900 开发 了 一 个 原型 应 用 ( 见 图 
10.7) 。 这 款 诺 基 亚 手机 包含 可 以 进行 视频 拍摄 的 前 置 VGA 摄像 头 ， 一 个 德州 仪器 公司 
600MHz ARM Cortex — A8 核 的 OMAP3 微 处 理 器 ， 以 及 256MB 随机 存储 器 。 在 用 户 界 面 和 
gstreamer 中 使 用 GTK 来 处 理 视频 拍摄 ， 我 们 完成 了 身份 验证 系统 的 近 帧 速率 操作 。 


























图 10.7 移动 生物 计量 界面 显示 的 面部 检测 、 面 部 特征 定位 (对 于 形状 标准 化 ) 以 及 很 多 受 欢迎 的 
网 站 中 的 自动 登录 和 注销 的 用 户 界面 例如， 电子 邮件 和 社交 网 络 。 


10.2.6 MoBio 数据 库 和 协议 


Mobio 项 目 与 其 他 相关 项 目 之 间 的 一 个 主要 差异 在 于 MoBio 系统 是 一 个 使 用 面部 和 声音 
的 双 模 态 系 统 ， 因 此 ， 它 需要 一 个 双 模 态 数据 集 来 评估 性 能 。 然 而 ， 很 多 公开 可 用 的 数据 集 
只 包含 面部 数据 或 者 只 包含 声音 数据 ， 而 不 是 两 者 均 有 。 即 使 少 有 能 够 做 到 的 也 只 是 包含 了 
在 严格 控制 条 件 下 ,使 用 高 质量 相机 和 麦克 风 录 制 的 视频 和 音频 数据 '”,*1]。 因 此 对 于 我 们 
的 应 用 来 说 并 不 现实 。 我 们 受 限 只 能 使 用 低 品 质 的 手持 相机 。 那 些 很 接近 的 数据 集 (例如 ， 
BANCA 数据 集 ) 使 用 了 一 个 静态 的 相机 ， 因 此 它 就 没有 产生 我 们 必须 要 处 理 的 手 部 轻微 拌 
动 造成 的 图 像 拌 动 现象 。 

因为 我 们 预期 未 来 会 有 其 他 移动 识别 和 验证 应 用 ， 所 以 为 了 研究 的 目的 ， 我 们 使 用 了 一 
个 手持 式 移动 设备 (诺基亚 N93i) 去 收集 真实 并 且 公 众 可 用 的 一 个 新 数据 库 2 ( 见 图 
10.8 ) 。 该 数据 库 收 集 持续 了 18 个 月 的 周期 ， 路 越 了 欧洲 六 地 ， 包 含 了 150 ŽRE, HE 
对 每 一 个 受 试 者 进行 了 两 个 阶段 的 数据 采集 。 第 一 个 阶段 有 6 个 部 分 ， 当 中 每 个 部 分 包含 
21 个 视频 ; 第 二 个 阶段 包含 6 个 部 分 ， 当 中 每 个 部 分 包含 11 个 视频 。 每 一 份 测 试 协 议和 数 
据 一 并 提供 ， 定 义 了 数据 库 应 该 如 何 分 为 训练 、 开 发 和 测试 集 ， 以 及 如 何 对 评估 分 数 进行 计 
算 。 该 测试 协议 随后 被 使 用 在 一 个 由 14 个 地 方 参与 的 比赛 中 : 9 个 应 用 于 面部 验证 ，5 个 应 















































图 10.8 来 自 于 数据 库 的 FERA, 显示 出 不 受 约束 的 室内 环境 性 质 和 不 受 控制 的 照明 条 件 
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用 于 说 话 者 验证 [3] 。 
10.3 ORR: 为 视觉 缺陷 者 进行 可 用 性 研究 


本 方 探究 了 对 于 有 视觉 缺陷 用 户 来 说 的 面部 识别 系统 的 可 用 性 。 各 类 人 机 界面 的 应 用 尤 
其 是 音频 界面 成 功 帮助 了 许多 视觉 缺陷 用 户 获 取信 息 。 受 之 启发 ， 我 们 试图 通过 音频 反馈 来 
为 视觉 缺陷 者 获得 改善 的 可 视图 像 质量 ， 

这 一 问题 将 会 用 几 个 阶段 来 呈现 。 在 第 一 阶段 ， 我 们 广泛 地 评估 了 头 部 姿势 对 图 像 质量 
和 面部 验证 性 能 的 影响 。 在 第 二 阶段 ， 我 们 开发 了 一 个 原型 系统 把 头 部 姿势 评分 与 频率 和 节 
奏 整 合 在 一 起 来 提供 一 个 用 户 交 互 机 制 和 反馈 。 最 后 一 个 阶段 以 视觉 缺陷 者 作为 受 试 者 开展 
实验 ， 证 他 们 与 一 个 面部 验证 系统 交互 ， 该 系统 是 由 头 部 姿势 驱动 的 音频 反馈 改进 的 。 


10.3.1 头 部 姿势 变化 对 性 能 的 影响 


H T EKRE S SEa ee a 
注释 的 数据 库 。 这 一 数据 库 必须 只 能 包含 一 个 降级 因素 ， 例如 ， 头 部 姿势 变量 ， 而 不 包括 其 他 
因素 ， 例 如 ， 腿 明 情况 、 面 部 表情 以 及 背景 变量。 为 了 这 个 目的 ， SIERI TIRE RAS 168 
个 受 试 者 组 成 的 3D 模型 的 数据 库 [4] 。 对 于 每 一 个 受 试 者 ， 我 们 从 不 同 的 倾斜 角度 和 平移 角度 
对 他 们 的 2D 图 像 进行 解读 。 这 样 一 来 ， 样 本 在 前 额 面 部 图 像 周围 的 角度 就 会 更 密集 ， 而 对 于 
极端 的 姿势 则 更 加 稀 玻 。 TaeSrarooe 
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图 10.9 单 3D 模型 产生 的 81 个 头 部 姿势 。 各 个 呈现 图 像 是 每 一 个 给 定 姿势 的 训练 数据 的 平均 图 像 。 





所 有 平移 和 倾斜 方向 中 的 采样 角度 都 在 以 下 的 对 数 尺度 中 作为 样本 : 
1.6, 5.8, 16.7, 45} 
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下 面 的 6 是 来 描述 平移 和 倾斜 角度 的 一 个 向 量 ，P( error10) 是 依存 9 的 系统 错误 。 形 式 
E, 我们 想 要 找到 容许 偏差 的 0. 集 ， 如 此 一 来 ， 可 接受 水 平 的 识别 错误 5， 在 可 容忍 的 范 
BIA: 





0. € 101 P(error| 0) < 6} 
式 中 ,6 是 一 个 很 小 的 数 。 

在 结果 中 ，P( error10) 是 由 EER 近似 得 到 的 。EER 是 错误 接受 率 与 错误 拒绝 率 一 致 的 
发 生 点 。 对 于 一 个 完美 的 面部 证 实 模 块 ， 错 误 率 为 0; 对 于 一 个 性 能 比较 差 的 系统 ， 它 的 错 
误 率 最 多 可 能 达到 50% (超过 这 个 标准 ， 系 统 可 能 会 接受 骗子 并 且 拒 绝 一 个 真实 的 用 户 ) 。 
如 此 的 一 个 近似 值 暗示 了 错误 估算 强化 了 等 先 验 类 概率 。 这 样 是 理想 的 ， 因 为 在 这 一 个 典型 
的 生物 计量 实验 中 会 有 比 匹配 (真实 的 ) 更 多 的 非 匹 配 (骗子 ) 进入 。 

为 了 估算 ERR, 150 个 合法 用 户 中 的 每 一 个 进入 都 与 剩 下 的 18 个 用 户 (充当 骗子 ) 进 
行 匹 配 ， 同 理 对 81 个 每 个 可 能 的 头 部 姿势 进行 同样 的 操作 。 

我 们 期 望 EER 将 随 一 个 倾斜 和 平移 的 函数 变化 。 图 10. 10 肯定 了 这 一 猜测 ， 并 且 作 为 
我 们 原型 系统 的 规范 基础 。 举 个 例子 ， 基 于 以 上 的 结论 ， 为 了 能 够 使 等 错误 率 低 于 5$% (Al 
此 ， 设 置 5 =0.05) ， 头 部 姿势 变量 应 该 处 于 平移 和 倾斜 方向 (0, 的 范围 值 ) 上 的 5° 之 内 。 
另 一 个 方面 来 看 ， 如 果 精 度 小 于 1$% FEER， 更 大 的 头 部 姿势 变量 就 可 以 得 到 处 理 。 
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图 10.10 EER 作为 平移 和 倾斜 各 个 方向 的 一 个 函数 
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10.3.2 用户 交互 模块 : 头 部 姿势 质量 评估 


相 较 于 在 前 一 节 介 绍 了 头 部 姿势 是 如 何 影响 系统 性 能 的 具体 方法 ， 本 节 将 探讨 能 够 驱动 
用 户 反 馈 的 机 制 。 

本 研究 中 我 们 探索 了 两 种 方法 : 使 用 面部 检测 可 信和 度 以 及 估算 头 部 姿势 。 

10. 3. 2. 1 面部 检测 方法 

近 十 年 来 人 们 已 经 开始 广泛 地 研究 面部 检测 ， 并 对 此 提出 了 很 多 解决 办 法 !4 。 其 中 包 
括 特征 降 维 方法 〈 例 如 ， 主 成 分 分 析 法 ， 线 性 判别 分 析 法 ) 、 肤 色 分 析 法 、 滤 波 技术 法 以 及 
基于 图 像 的 方法 (例如 ，AdaBoost 和 神经 网 络 ) 。 本 研究 运用 了 使 用 分 类 器 级 联 的 基于 图 像 
的 面部 检测 模块 [*]， 称 为 “WaldBoost”。 这 是 AdaBoost 的 一 个 变 体 ， 这 一 最 新 的 方法 在 已 
经 由 参考 文献 [43] 提出 。 这 个 检测 器 非常 吸引 人 ， 因 为 它 能 够 进行 实时 操作 ， 包 含 变化 
分 辩 率 的 图 像 ， 并 且 它 不 会 被 杂乱 的 背景 所 影响 。 而 且 ， 我 们 能 够 使 用 这 种 面部 检测 器 的 输 
出 作为 质量 评估 。 其 输出 是 一 个 暗示 脸 部 检测 相似 度 的 对 数 似 然 比 。 

用 /来 指 代 面 部 检测 输出 。 然 后 ， 通 过 使 用 之 前 的 同一 数据 库 ， 我 们 对 p(f10) 进行 估 
T, 其 中 9 是 平移 角度 和 倾斜 角度 的 一 个 向 量 。 图 10. 11 呈现 了 这 一 分 布 的 中 值 。 我 们 注意 
到 图 10. 11 在 一 定 程度 上 与 EER 等 值 线 图 相关 联 。 这 表明 了 基于 面部 检测 输出 的 驱动 反馈 
是 可 行 的 。 











FEC) 








图 10. 11 ”面部 检测 输出 的 中 值 作为 平移 和 倾斜 方向 函数 的 等 高 线 图 








10. 3. 2. 2 ” 头 部 姿势 估算 方法 
尽管 对 于 头 部 姿势 估算 的 算法 很 多 [4] ， 但 是 我 们 的 选择 还 是 严格 限定 于 一 些 手持 设备 
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的 应 用 要 求 : 实时 、 轻 量 计算 、 小 内 存 消耗 和 粗略 头 部 姿势 估算 。 为 了 把 姿势 信息 反馈 给 用 
户 ， 实 时 要 求 非常 重要 。 

在 本 研究 中 ， 我 们 运用 了 可 以 满足 这 些 要 求 降 维 方法 ， 特 别 是 学 习 判 别 投射 和 原型 
(LDPP) 算法 !$] 。 同 时 ， 这 一 算法 学 习 了 直线 投射 基础 以 及 对 于 最 近邻 ( Nearest - Neigh- 
bor) 分 类 的 一 系列 原型 。 但 是 ， 因 为 我 们 的 任务 是 回归 而 不 是 分 类 ， 所 以 为 了 满足 我 们 的 
需要 算法 被 稍微 修改 了 一 下 。 这 里 的 描述 简要 地 解释 了 算法 以 及 引入 的 修改 。 

xNx1 为 一 个 随意 姿势 的 剪裁 图 像 ， 代 表 一 个 列 向 量 有 NN 个 图 像 像 素 ( 灰 度 水 平 )。 而 投 
射 的 图 像 (其 中 尺寸 5x1) 可 以 表示 为 

x = BTx 
AF, By yp te ARITE, JFE T EM RE, EAE, tb, E 
由 牺牲 泛 化 性 能 来 实现 运算 速度 的 要 求 决定 的 (2b 值 较 小 暗示 了 运算 量 较 少 ) 。 注 意 投射 基 
础 矩阵 如 不 一 定 要 正 交 ， 因 为 它 是 由 LDPP 通过 梯度 下 降 获得 的 。 

0 为 包含 一 个 头 部 姿势 的 倾斜 度 和 平移 度 的 双 变 量 向 量 。 通 过 使 用 被 角度 向 量 9,(i=1， 
2, 3，…，81) 限定 的 81 个 离散 姿势 ， 我 们 能 够 有 效 地 履 盖 整个 视野 范围 的 头 部 姿势 范围 
的 连续 。 而 且 ， 视 疡 为 81 个 头 部 姿势 (ILA 10.9) 其 中 之 一 的 原型 (平均 图 像 ) IFA 
六 =BTp; 为 其 对 应 的 投影 向 量 。 

LDPP 的 原始 公式 通过 最 近邻 原则 解决 了 分 类 问题 ， 即 一 个 求解 样本 x 被 分 配 了 类 别 标 
签 ， 标签 的 原型 p 是 与 求解 样本 最 接近 的 。 然 而 ， 因 为 我 们 这 里 的 问题 是 回归 ， 所 以 最 近 
邻 原 则 在 这 里 不 适用 。 我 们 需要 一 个 能 够 量化 求解 样本 x 与 给 定 的 原型 p, 的 相似 度 的 函数 ， 
对 于 所 有 可 能 的 姿势 范围 i。 当 x 接近 p, 时 ， 类 似 测 量 应 该 有 很 高 的 响应 ， 最 后 在 =p, 时 
达到 一 个 峰值 。 相 反 地 ， 当 x 远离 p, 时 ， 测 量 值 应 该 很 小 ， 最 终 到 达 0。 

可 以 证 明 以 上 特征 的 一 个 可 能 的 测量 是 径 向 基 函 数 ( RBF)， 它 同时 普遍 地 被 称 为 高 斯 

ee ae 2 
内 核 (Gaussian kernel) ， 以 形式 op| AE ae, 其 中 o ARE, REAR BE 
ETE Ep, 时 ， 它 是 一 个 能 够 控制 这 一 测量 急剧 下 降 的 参数 。o 的 最 理想 值 是 数据 依 
存 与 问题 依存 (因为 它 是 被 定义 在 数 集 p,，Vi 范围 上 的 ) ， 并 由 多 次 实验 决定 。 我 们 发 现 
和 =1l 对 于 我 们 的 任务 非常 适合 。 当 径 向 基 旺 数 被 运用 在 其 他 姿势 的 场景 中 时 ， 它 可 以 被 解 
读 为 头 部 姿势 的 后 验 概率 ， 即 


P(0,1 x) = 







































































i. Sele el) 
Zz 20? 


式 中 2 是 一 个 正则 化 因子 ， 遵 守 概率 公理 ， 即 > POI x) = 1。 由 此 可 知 ， 它 遵循 Z = 








ay 2 
D epf- eee 然后， 期 望 得 到 的 头 部 姿势 
(on 
6 = È OP(O E) Vist POIR) >n 
这 在 本 质 上 是 头 部 姿势 的 后 验 分 布 中 的 一 个 期 望 运算 (就 平常 统计 来 看 ) P(b1z) ， 考 
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虑 到 在 降 维 当 中 的 观测 值 x。 

就 条 件 P(6;17) >n, HP n 是 一 个 很 小 的 值 ， 安 排 在 这 里 是 由 于 原始 图 像 x 不 是 一 个 
面部 图 像 。 因 此 ，RBF 的 响应 ， 也 就 是 P(0,1x) 很 可 能 是 随机 的 ， 以 至 于 PCO, la) 对 于 所 有 
i 都 会 很 小 。 这 个 的 结果 是 6 会 趋 于 平均 值 。 通 过 设 定 mn”， 对 应 的 RBF 响应 过 小 的 头 部 姿势 
就 能 够 被 有 效 地 排除 。 

另 一 个 我 们 考虑 到 的 完整 性 检查 是 为 了 确保 * 的 确 是 在 头 部 姿势 估算 之 前 的 面部 。 这 是 
通过 在 之 前 10.3.2 节 已 经 讨论 的 经 过 质量 (f) 函数 完成 的 面部 检测 可 信 度 而 实现 的 。 由 于 
头 部 姿势 估算 细节 在 本 章 中 不 是 很 重要 ， 这 一 方法 的 效用 就 不 再 进一步 讨论 了 。 

对 本 节 进 行 总 结 之 前 ， 对 由 * 覆盖 的 样本 分 布 进行 可 视 化 呈现 是 很 有 指导 意义 的 。 为 
了 这 一 目的 ， 我们 选择 了 5 个 独特 的 头 部 姿势 ， 包 含 了 基本 的 正面 部 分 、 左 上 部 分 、 右 上 部 
分 、 左 下 部 分 和 右 下 部 分 的 姿势 。 图 10. 12 显示 了 关于 测试 数据 集中 这 些 姿势 的 散布 式 图 
示 。 如 图 所 示 ， 所 有 的 姿势 在 一 定 程度 上 已 经 被 很 好 地 隔 开 了 。 
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图 10.12 3D 坐标 系 中 81 个头 部 姿势 中 的 5 个 散布 式 图 示 





10.3.3 用户- 交互 模块 音频 反馈 机 制 


一 个 能 够 让 头 部 姿势 的 质量 信息 反馈 给 用 户 的 通用 办 法 就 是 连续 评估 错误 概率 并 对 反馈 
机 制 即时 控制 〈 见 算法 1) 。 

让 我 们 来 定义 9 = [/, 人 的 质量 信息 ， 它 是 组 成 面部 检测 和 头 部 姿势 的 一 个 量 。 质 量 条 
件 的 错误 概率 由 P(errorlg) 代 表 。 在 文献 中 ， 有 很 多 方法 可 以 用 来 估计 P(errorlg)， 例 如， 
广义 线性 混合 模型 (GLMM)1%] 和 逻辑 回归 (注意 逻辑 回归 是 前 者 的 一 种 特殊 情况 )。 使 用 
GLMM 的 优点 是 确定 不 同 因 子 或 同时 协 变量 的 可 能 性 ， 例如， 人 性别、 出 现 的 类 别 以 及 民 
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族 等 。 
尽管 向 量 9 的 信息 量 很 大 〈 即 包含 估算 的 头 部 姿势 和 面部 检测 可 信 度 ) ， 但 是 在 如 何 使 
大 量 的 信息 以 有 意义 的 方法 传达 给 用 户 这 一 点 上 不 是 特别 清晰 ， 如 使 用 3D 声音 引导 用 户 或 
者 给 他 们 明确 的 指示 。 两 种 情况 下 ， 向 用 户 传达 这 个 信息 可 能 会 对 其 造成 一 些 心理 上 的 负 
担 。 应 该 注意 的 另 一 点 是 ， 只 有 面部 检测 可 信和 度 和 头 部 姿势 关联 很 强 ， 即 P (fl q) 与 
P(errorlg) 紧密 相关 (对 比 图 10. 10 与 图 10. 11 ) 。 基 于 前 面 的 推理 和 观测 ， 我 们 没有 使 用 一 
个 单独 的 数据 库 对 P(error1g) 进行 估算 ， 而 是 选择 以 下 这 一 更 为 简便 的 确定 性 函数 : 
不 可 知 ， <A 
quality(f) = 非 正 面 ， A <f < A (10.3) 
正面 ， A upper Sf 
REIR T BEREM HS TET aS Joe e TT i h I ARAR S EL C lower) 和 一 个 较 
ABE (_ upper) 所 决定 的 。 
算法 1 头 部 姿势 驱动 音频 反馈 模块 
be R: 一 个 容错 闵 值 
while true do 
获取 一 个 样本 
估算 质量 4 
if P (error |q) <6 then 
执行 匹配 
退出 
else 
产生 反馈 
end if 












































end while 





上 述 公 式 的 一 个 即时 效应 就 是 根据 面部 质量 状态 ， 不 同 地 驱动 用 户 反 馈 机 制 。 我 们 都 知 
道 尽管 现在 已 存在 设计 有 反馈 的 生物 计量 机 制 ， 但 它们 都 非常 的 基本 。 举 个 例子 ， 反馈 机 制 
言 息 包括 两 种 状态 ， 一 种 标记 着 数据 获取 过 程 的 开始 ， 另 一 种 标记 着 结束 。 在 我 们 提出 的 反 
馈 机 制 中 ， 更 加 丰富 的 信息 〈 头 部 姿势 ) 被 传达 给 用 户 。 然 而 ， 该 信息 没有 像 使 用 估算 头 
部 方法 那样 获取 的 信息 丰富 ， 如 前 一 节 讨论 过 的 。 这 是 因为 我 们 没有 办 法 把 更 加 丰富 的 信息 
以 一 种 有 意义 的 方式 传达 给 用 户 。 所 以 ， 这 部 分 是 未 来 研究 的 方向 。 

已 经 决定 了 要 给 予 用 户 高 质量 信息 水 平 ， 接 下 来 的 问题 就 是 反馈 模式 的 实际 形式 ， 这 可 
以 通过 不 同方 法 传送 给 用 户 一 一 ee as ae Oe it; 或 声音 就 是 音频 反馈 ; 或 振动 
就 是 触觉 反馈 。 

在 本 研究 中 ， 音 频 反 馈 将 会 被 采用 。 我 们 为 了 增加 频率 ， 创 建 了 3 个 不 同 的 正弦 信号 
波 ， 而 且 用 3 种 不 同 节奏 来 表明 不 同 的 定性 阶段 (从 不 可 知 到 非 正 面部 分 到 正面 部 分 )。 

在 我 们 的 研究 中 ,“ 不 可 知 ” 定 性 阶段 与 一 个 慢 节奏 演奏 的 低频 声音 有 关 ,“ 非 正面 ” 
与 较 快 节 和 雪 演 奏 的 中 等 频率 的 声音 有 关 ， 最 后 “正面 ”与 一 个 以 最 快 节奏 演奏 的 最 快 频率 



























































282 “实感 交互 : 人 工 智 能 下 的 人 机 交互 技术 


的 声音 有 关 。 使 用 的 频率 分 别 是 400Hz、800Hz、1200Hz。 

在 获取 过 程 中 ,反馈 得 以 即时 并 且 连 续 地 提供 。 图 10. 13 展示 了 头 部 姿势 质量 评估 与 反 
馈 机 制 (虚线 ) 整合 成 的 生物 计量 系统 的 新 架构 。 当 一 个 用 户 获 得 一 个 生物 计量 数据 的 时 
候 ， 质 量 在 质量 评估 模块 中 得 到 了 检查 。 如 果 质 量 被 认为 很 高 ， 生 物 计 量 数据 会 被 传送 到 特 
征 提取 模块 ， 否 则 系统 将 把 质量 反馈 给 用 户 ， 并 且 为 了 获得 新 的 生物 计量 数据 ， 需 要 进行 男 
一 次 交互 。 该 过 程 将 会 一 直 持 续 到 超时 结束 ， 或 直到 获得 足够 质量 的 头 部 姿势 为 止 。 
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图 10. 13 ”生物 计量 系统 中 的 质量 评估 和 反馈 机 制 的 系统 架构 
10.3.4 视觉 缺陷 者 的 可 用 性 测试 








本 节 探 讨 了 视觉 缺陷 用 户 如 何 与 移动 生物 计量 系统 交互 的 可 用 性 问题 。 为 此 ， 我 们 根据 
不 同年 龄 群体 、 性 别 以 及 缺陷 程度 ， 从 马来西亚 槟 构 城 圣 尼古拉斯 视觉 机 构 招募 了 40 个 视 
觉 缺陷 用 户 受 试 。 图 10. 14 描述 了 对 象 的 人 口 统计 结构 。 
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图 10.14 受 试 者 的 人 口 统计 信息 
虽然 参与 者 可 以 使 用 移动 电话 ， 但 是 他 们 不 熟悉 相机 的 功能 。 他 们 一 些 人 已 经 有 过 计算 
机 培训 的 经 历 。 他 们 非常 配合 ， 并 且 对 声音 变化 非常 敏感 。 
在 测试 期 间 ， 参 与 者 被 安排 在 一 个 安静 的 房间 ， 并 且 被 要 求 使 用 我 们 的 原型 系统 去 完成 
一 次 图 像 获取 任务 。 每 一 个 受 试 者 都 通过 一 个 视频 短片 获知 他 们 需要 拍摄 下 其 面部 位 置 尽 可 
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能 正面 的 图 像 。 他 们 必须 在 3 个 条 件 下 完成 拍摄 : 无 反馈 ， 有 音频 反馈 和 在 口头 指示 后 给 予 
音频 反馈 。 通 过 音频 反馈 ， 不 同 频率 音调 的 声音 将 被 播放 ， 以 提供 对 他 们 头 部 姿势 的 指示 ， 
如 式 (10.3) 所 示 。 音 频 反 馈 之 后 的 指示 模式 一 一 音频 + 指示 是 指 给 予 参与 者 音频 反馈 与 
口头 讲解 ， 告 诉 他 们 频率 和 节奏 与 图 像 质量 的 联系 。 参 与 者 被 特别 告知 ， 在 图 像 获 取 过 程 开 
台 之 前 ， 其 手持 相机 应 与 自己 保持 一 辟 距 离 。 

在 一 次 实验 中 可 能 会 出 现 两 种 结果 ， 即 没 检测 到 面部 ， 或 是 面部 在 序列 中 被 检测 到 。 第 
一 种 情况 是 失败 的 ， 而 第 二 种 情况 推定 为 是 成 功 的 。 但 是 后 者 的 成 功 程度 仍 需 要 进一步 区 
分 ， 取 决 于 面部 检测 可 信和 度 。 因 此 ， 从 每 次 实验 事件 中 ， 我 们 可 以 得 出 两 种 统计 方法 : 图 像 
获取 成 功 或 失败 ， 以 及 在 成 功 事 件 中 面部 检测 器 产生 的 可 信和 度 值 。 

图 10. 15 总 结 了 给 定 的 条 件 下 关于 视 在 多 种 反馈 条 件 下 获取 的 所 部 正 而 
觉 缺 陷 用 户 的 成 功率 或 者 是 失败 率 。 图 示 
表明 了 音频 反馈 成 功率 以 及 指示 + 音频 反 
馈 的 成 功率 , 会 比 在 基准 线条 件 下 没有 反 
馈 的 成 功率 (只 有 49%) 要 高 得 多 ( 同 
时 分 别 有 65% 和 94% ) 。 因 此 ， 当 系统 补 
充 音频 反馈 和 指示 的 时 候 ， 视 觉 缺 陷 的 用 
户 就 可 能 使 用 移动 生物 计量 技术 。 

每 个 实验 阶段 获得 面部 检测 可 信 度 
的 程序 如 下 : 当 序列 没有 检测 到 面部 ， 
面部 检测 可 信和 度 被 设置 默认 值 为 0。 当 无 反馈 音频 a. 
面部 被 检测 的 时 候 ， 序 列 中 的 面部 检测 图 10.15 3 种 实验 条 件 下 的 面部 检测 可 信和 度 
可 信和 度 的 最 高 值 被 使 用 。 图 10. 16 显示 了 一 些 检测 到 的 面部 图 像 。 
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音频 -指示 ，19.2 





ARE d) 对 象 23 
110.16 取 自 第 一 阶段 的 6 个 随机 抽取 的 受 试 者 ，4 个 实验 配置 中 每 一 个 里 面 可 信 度 最 高 的 面部 检测 
图 像 的 例子 。 如 图 所 示 ， 我 们 能 观测 到 有 音频 + 指令 的 图 像 有 可 能 比 只 有 音频 或 者 只 有 指令 的 面部 检测 得 
到 的 图 像 的 可 信 度 更 高 
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Fe, 10.3 音频 ，16.5 音频 + 指示 ，17.1 FG, 103 


Sal ` 


音频 ，17.1 





音频 + 指示 ，21.5 





6) 对 象 35 HAR 

FAL 10.16 取 自 第 一 阶段 的 6 个 随机 抽取 的 受 试 者 ,4 个 实验 配置 中 每 一 个 里 面 可 信 度 最 高 的 面部 检测 
到 像 的 例子 。 如 图 所 示 ， 我 们 能 观测 到 有 音频 + 指令 的 图 像 有 可 能 比 只 有 音频 或 者 只 有 指令 的 面部 检测 得 
到 的 图 像 的 可 信和 度 更 高 ( 续 ) 

同时 ， 为 了 考查 3 个 条 件 下 被 检测 到 的 面部 可 信和 度 的 平均 值 是 否 差别 很 大 ， 我 们 完成 了 
对 面部 检测 可 信和 度 的 连续 值 配对 tt 检验 。 表 10. 1 显示 了 结果 。 如 图 所 示 ， 在 配对 t 检验 的 每 
一 次 对 比 中 ,结果 是 全 部 都 很 显著 的 (5% 以 下 ) 。 这 进一步 证 明了 在 提高 可 用 性 方面 ,我 
们 设计 的 机 制 是 非常 有 效 的 。 

表 10.1 在 不 同 条 件 下 实施 的 显著 的 配对 t 检验 























































































































配对 差异 
实验 Wi pra 标准 误 95% CI t df Sig. (2 -tailed) 
差 均 值 低 高 
无 FB 与 A 一 4. 64 8. 42 1. 40 -7.49 -1.79 -3.31 35 0. 002 
无 FB A+I -7.74 7.58 1. 26 -10.31 | -5.17 | -6.124 35 0. 000 
音频 与 A+I -3.01 4. 86 0. 81 -4.74 -1.45 —3. 824 35 0. 001 




















注 : FB 代表 反馈 ，A 代表 音频 ，I 代 表 指示 ，CI 代表 置信 区 间 。 


10.4 讨论 与 结语 





身份 验证 在 我 们 今天 的 日 常生 活 中 发 挥 着 重要 的 作用 。 生 物 计量 学 作为 一 种 实现 这 种 验 
证 的 技术 ， 仍 然 面临 着 许多 挑战 。 人 类 能 在 不 受 限 制 的 环境 下 识别 熟悉 的 面孔 ， 但 是 生物 计 
量 系统 可 以 识别 千 万 张 面 孔 ， 不 过 需要 在 严格 控制 的 环境 下 。 这 一 系统 很 容易 受到 环境 噪声 
源 的 影响 ， 这 一 点 人 类 能 够 轻易 自然 地 克服 。 

本 章 已 经 探讨 了 多 模 态 生物 计量 作为 一 种 可 利用 的 方式 促进 人 类 与 系统 进行 交互 。 我 们 
已 经 对 需要 多 模 态 生 物 计 量 的 大 量 场景 进行 了 调研 。 此 外 ， 同 时 我 们 还 对 使 用 面部 和 声音 特 
征 的 移动 平台 进行 身份 验证 的 一 个 新 系统 进行 了 概括 。 具 体 来 看 ， 最 新 发 展 的 视频 模块 可 以 
检测 、 标 准 化 和 验证 面部 ， 而 音频 模块 则 可 以 分 段 言语 并 验证 说 话 人 。 为 了 确保 系统 的 鲁 棒 
E, 我们 使 模型 适用 于 评估 拍摄 条 件 并 融合 了 多 信号 模 态 ， 这 些 都 是 在 一 个 有 诸多 局 限 的 消 
费 级 移动 设备 中 实现 的 。 

在 一 个 独立 的 个 案 研究 中 ， 我 们 同时 说 明了 移动 生物 计量 技术 对 于 视觉 缺陷 用 户 的 潜在 
服务 价值 。 通 过 提供 合适 的 反馈 ， 获 取 的 信号 质量 可 以 在 很 大 程度 上 得 到 提高 。 
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11.1 引言 














我 们 用 所 有 的 感官 来 与 环境 交互 ， 但 毫 无 疑问 ， 视 党 给 我 们 提供 的 周围 环境 印象 是 最 直 
接 、 最 重要 的 。 光 场 能 产生 这 些 视觉 体验 的 信号 。 当 我 们 在 有 限 的 小 范围 内 ， 从 一 个 有 利 观 
察 的 角度 看 向 任何 方向 ， 凝 视 经 过 的 有 限 范围 的 所 有 信息 都 会 包含 在 光 场 里 。 

现在 的 显示 器 能 够 重 构 2D 和 立体 3D (s3D) 图 像 ， 但 在 自然 环境 中 的 有 些 人 类 可 以 感 
知 的 视觉 信号 却 在 显示 器 重建 图 像 时 丢失 了 。 人 类 从 光 场 中 提取 信息 的 能 力 与 捕捉 、 重 构 这 
些 信号 的 类 似 能 力 之 间 的 差距 ， 正 随 着 摄像 头 和 显示 器 取代 目前 在 计算 和 视频 娱乐 系统 使 用 
的 技术 而 逐渐 减 小。 丢失 的 各 类 信号 正 是 本 节 的 主题 。 

如 果 试 图 观察 一 个 在 现代 显示 器 呈现 的 模糊 散 焦 的 图 像 ， 你 是 无 法 通过 调 焦 使 其 清晰 呈 
a 这 常常 令 人 愧 恼 ， 因 为 使 物体 聚焦 所 需要 的 信息 并 未 存储 于 显示 屏 上 重 构 的 信和 号 中 。 

、s3D 和 多 视点 s3D 显示 器 并 不 能 重 构 所 有 我 们 通常 从 现实 世界 的 光 场 中 所 采集 的 信号 。 
an 当 我 们 观察 这 些 图 像 时 需要 操控 开 环 回路 。 

光 场 的 所 有 信息 中 仅 有 小 部 分 能 被 人 类 视觉 感 测 到 。 环 顾 四 周 的 时 候 ， 我 们 能 目测 超出 
窦 小 的 视觉 波段 以 外 的 频率 信息 。 此 外 ， 我 们 还 可 以 看 到 未 经 过 采样 的 视觉 波段 以 内 的 信 
息 。 我 们 对 光 的 偏振 不 敏感 ， 在 没有 特殊 视觉 辅助 的 情况 下 ， 我 们 无 法 区 分 大 强度 或 小 强度 
的 差异 、 细 微 空间 内 的 信息 或 时 间 的 快速 变化 ， 而 且 我 们 也 不 是 很 善于 发 现 可 视 光 的 精确 频 
谱 特 性 。 

视觉 研究 文献 认为 ， 我 们 无 法 感知 到 的 光 场 信息 是 在 可 见 度 窗口 以 外 的 信息 。 该 窗 
口 随 观 察 条 件 的 变化 而 变化 ， 例 如 ， 离 观察 表面 越 近 ， 就 能 接收 到 越 详细 的 信息 ， 并 且 光 照 
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度 的 变化 也 会 影响 我 们 对 短 时 间 间 隔 发 生 的 细节 信息 和 变化 的 能 见 度 。 一 部 分 信息 始终 超出 
可 见 度 窗口 。 高 效 的 工程 设计 需要 清楚 哪些 信号 可 被 视觉 捕捉 ， 哪 些 在 能 见 度 窗口 之 外 。 设 
计 中 知 包 含 不 可 见 信息 会 造成 资源 浪费 。 若 显示 器 上 未 包含 我 们 可 见 可 用 的 信息 ， 则 意味 着 
此 时 观看 的 图 像 与 肉眼 能 观赏 的 自然 风光 将 显著 不 同 。 

艺术 家 使 用 成 像 技术 所 有 的 功能 和 特点 来 创造 独特 的 视觉 体验 。 这 方面 的 例子 包括 
Ansel Adams 的 照片 ， 他 通过 调整 图 像 对 比 度 使 其 更 富有 戏剧 化 ， 还 有 Joel 和 Ethan Coen Œ 
i, Roger Deakins 摄影 的 电影 《 逃 狱 三 王 》， 其 通过 调整 图 像 色彩 将 夏季 青葱 的 密西西比 打 
造成 了 燥热 干旱 的 场景 ?| 。 

不 是 每 一 次 调整 从 光 场 捕获 并 显示 于 屏幕 上 的 信号 都 能 达到 理想 的 目的 。 一 旦 忽略 关闭 
控制 回路 所 需要 的 系统 信息 就 会 引起 视觉 疲劳 与 不 适 '? 。 显 示 器 上 观看 图 像 所 需 的 信息 不 
足 会 导致 一 类 问题 ， 例 如 ， 如 果 观 看 对 象 出 现 的 空间 位 置 与 它 在 s3D 和 多 视点 s3D 显示 器 上 
聚焦 的 位 置 不 匹配 ， 就 会 引起 视觉 不 适 。 

在 理想 情况 下 ， 成 像 技术 、 摄 像 头 和 显示 器 能 够 捕获 或 重建 人 类 在 与 视觉 环境 进行 交互 
时 所 使 用 的 全 部 信号 。 对 于 某 些 任务 ， 忠 实地 捕获 和 重建 这 些 信号 是 理所当然 的 目标 。 然 
而 ,视觉 媒体 中 的 艺术 表达 表明 控制 和 调整 这 些 信 号 也 同样 重要 。 艺 术 家 所 重视 的 图 像 保 真 
度 是 他 们 的 艺术 意图 的 再 现 。 而 对 于 诸如 医学 成 像 等 其 他 应 用 来 说 ， 它 可 能 用 于 检测 疾病 。 
在 这 种 情况 下 ， 为 提高 检测 能 力 而 进行 的 信号 调整 就 是 工程 设计 的 目标 。 不 过 这 些 不 同 的 意 
图 都 依赖 于 技术 。 我 们 需要 能 够 捕捉 或 重建 一 套 完 整 的 人 类 可 感知 的 视觉 信号 的 技术 。 从 重 
构 信 号 中 删除 信息 或 者 将 其 变换 的 选择 应 该 是 能 够 设计 的 而 不 是 随机 的 ， 或 者 说 还 存在 可 以 
克服 的 技术 局 限 。 



























































用 肉眼 从 自然 光 场 采集 $2 fi 
变形 ， 尽 管 我 们 自 以 为 在 视 
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同 的 长 度 ， 然 而 看 起 来 却 长 
短 不 一 。 我 们 在 照片 、 电 影 和 显示 器 上 所 看 到 的 颜色 就 表明 ， 不 同 的 物理 输入 信号 能 产生 不 
同 的 感知 体验 。 面 对 一 个 人 的 脸 与 看 照片 上 的 这 张 脸 时 ， 投 影 到 视网膜 上 的 光谱 能 量 分 布 是 
完全 不 同 的 ， 尽 管 人 们 通常 没有 注意 到 这 种 区 别 。 视 觉 研 究 文献 中 称 这 种 现象 为 同色 异 谱 ; 
传播 理论 则 称 它 为 变形 。 那 些 看 起 来 具有 相同 颜色 但 实际 上 有 着 两 个 不 同 的 频谱 能 量 分 布 的 
色彩 ， 被 称 为 条 件 等 色 ， 这 常见 于 人 为 场景 ， 自 然 场 景 中 并 不 多 见 。 

图 11. 1 右上 方 的 灰色 条 形 在 左边 缘 接 壤 较 暗 条 形 的 地 方 更 亮 ， 而 同时 在 右边 缘 临 近 浅 
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色 条 形 处 的 颜色 较 深 。 尽 管 灰 条 的 外 观 呈 夷 痕 状 ， 实 际 上 每 个 灰 条 内 的 灰 度 是 一 样 的 。 这 种 
现象 被 称 为 马赫 带 ， 它 用 于 增强 边缘 的 可 见 度 。 它 是 视觉 机 制 经 过 发 展演 变 的 一 个 例子 ， 其 
中 视觉 对 图 像 细 节 检 测 的 感知 准确 度 是 增强 的 。 这 种 演进 与 医学 成 像 用 于 图 像 数 据 的 转换 以 
优化 病症 的 检测 是 相同 的 。 

图 11.1 的 底部 显示 了 人 类 视觉 系统 的 男 一 特点 。 词 语 “Orange” A “Pink” FFL [al & 
墨水 印刷 在 此 图 的 左 侧 和 右 侧 ， 但 出 现在 右边 的 两 词 颜色 却 不 一 样 。 正 如 光 在 整个 图 像 内 的 
任何 特定 位 置 中 创建 的 信号 会 影响 颜色 感知 一 样 ， 周 围 的 图 像 也 会 影响 颜色 的 感知 。 在 这 个 
例子 中 ， 字 母 的 感知 颜色 取决 于 色 条 的 间距 以 及 黄色 或 蓝 色 条 是 否 覆盖 字母 或 放置 在 字母 
下 方 。 

从 表面 反射 的 光 的 光谱 特性 取决 于 表面 以 及 光源 。 光 源 会 因 自 然 光 或 人 造 光 而 发 生变 
化 , 但 大 多 数 时 候 ， 我 们 都 能 够 正确 识别 表面 颜色 。 然 而 ,在 图 11.1 的 下 方 的 例子 中 ， 忽 
略 光源 的 机 制 产 生 了 不 同 于 表面 颜色 的 色觉 认 知 。 通 过 放大 ， 右 下 方 的 图 像 就 可 以 改变 颜色 
的 感知 。 随 着 放大 倍数 的 增加 ， 空 间 关系 的 尺度 随 之 改变 ， 字母 形成 不 同 颜 色 的 错觉 就 会 
消失 。 

用 于 实现 艺术 的 目标 与 为 视觉 系统 添加 变形 、 扭 曲 并 创建 和 光 场 信号 一 致 的 感知 假象 的 
意象 艺术 手法 ， 引 出 了 视觉 用 途 的 几 个 问题 : 为 什么 我 们 从 光 场 而 不 是 其 他 地 方 提 取信 息 ? 
视觉 感知 有 什么 进化 性 目标 ? 以 及 ， 我 们 对 物质 的 感知 与 这 些 物 质 的 物理 基础 事实 是 如 何 密 
切 相 关 的 ? 要 了 解 当 前 的 成 像 系 统 中 光 场 的 丢失 信号 如 何 影 响 我 们 的 感知 以 及 我 们 与 机 器 的 
交互 ， 并 回答 以 上 问题 ， 可 以 了 解 一 下 生物 视觉 的 进化 背景 。 


11.2 生物 视觉 的 起 源 


5 亿 多 年 前 寒 武 纪 大 爆炸 后 ， 捕 食 成 为 了 生活 的 一 部 分 ,不 久生 物 感觉 系统 便 开 始 进 
化 。 随 着 视觉 的 进化 ， 生 物 能 找到 食物 且 避 免 被 捕食 。 视 觉 对 认 知 起 着 重要 作用 ， 因 为 认 知 
是 一 种 语言 ， 我 们 用 它 来 表达 思想 以 及 我 们 对 周围 世界 的 理解 。 视 觉 提供 我 们 用 于 周围 直接 
环境 导向 的 基本 信息 ， 它 是 我 们 行为 过 程 依赖 的 主要 输入 数据 。 几 乎 所 有 的 想法 都 有 关联 图 
像 ， 椅 子 是 一 个 可 视 化 的 图 案 ， 老 虎 是 一 只 大 猫 。 即 使 是 “满意 ”这 样 的 抽象 概念 ， 也 可 
以 被 想象 成 脸 上 露出 的 笑容 。 视 觉 认 知 ， 即 对 图 像 的 理解 ， 不 是 照片 的 精神 等 价 物 ; 我 们 的 
视觉 体验 更 类 似 柏拉图 的 理想 和 形式 理念 。 我 们 看 到 的 是 人 、 物 和 行为 ， 而 不 是 他 们 投射 到 
我 们 视网膜 上 的 图 像 。 眼 见 的 过 程 是 动态 的 且 有 意义 的 ， 它 不 是 一 个 被 动 的 机 制 。 

人 的 视觉 是 以 物质 对 象 为 中 心 的 。 我 们 使 用 来 自 于 光 场 ， 通 过 学 习 、 记 忆 ， 经 神经 信和 号 
处 理 的 信息 ， 来 了 解 我 们 从 视网膜 上 所 感知 的 外 部 环境 。 视 网 膜 上 形成 的 图 像 是 视觉 的 原始 
数据 ; 这 些 原 材料 无 法 提供 足够 的 信息 来 理解 图 像 。 要 理解 我 们 所 看 到 的 ， 我 们 要 改变 眼睛 
的 位 置 ， 集 中 注意 力 将 场景 整理 或 者 将 其 分 段 成 为 完整 的 物质 对 象 。 感 知 依赖 于 经 验 以 及 即 
时 可 用 的 数据 。 这 从 寻找 和 识别 杂乱 场景 中 的 物体 时 所 获 的 体验 就 可 以 明白 。 从 这 点 看 ， 一 
且 对 象 被 认可 和 变 得 熟悉 ， 就 很 容易 看 见 它 了 。 
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图 像 的 存在 ， 是 因为 我 们 有 一 
个 类 似 于 针 孔 摄像 机 的 眼睛 ， 如 图 
11.2 所 示 。 要 理解 我 们 的 眼睛 如 何 
从 光 场 提取 有 用 的 信息 以 及 光 的 物 
理性 ， 首 先 要 了 解 针 孔 摄 像 机 。 公 
元 前 几 百 年 ， 墨 子 和 亚 里 士 多 德 描 
述 了 暗箱 的 连接 方式 ， 达 . 芬 奇 将 
FPR A HE BR 。 几 何 光 学 的 中 心 
思想 一 一 任何 表面 上 一 点 发 出 的 光 
都 被 视 为 各 表面 之 外 各 个 方向 发 出 图 11.2 暗箱 ( 针 孔 摄像 机 ) 如 该 图 所 示 。 针 孔 摄像 机 
的 射线 一 一 就 是 源 于 针 孔 摄像 机 。 的 发 现 引 发 了 几何 光学 和 射线 理论 关于 光 沿 直线 传播 的 假设 
寒 武 纪 大 爆发 后 不 久 便 发 现 了 针 孔 
摄像 机 的 原理 ， 而 像 我 们 人 类 这 样 复杂 的 眼睛 则 进化 于 5 (CAE TO! 。 

Michael Faraday 于 1846 年 [91 第 一 次 将 光 描 述 
为 光 场 ， 类 似 于 他 在 电 和 磁 领 域 提出 的 理论 。 近 
100 年 后 ，Gershun[7] 将 光 场 定义 为 3D 空间 中 不 
可 数 的 无 穷 点 ， 其 中 每 个 点 可 被 表征 为 一 个 辐射 
函数 ， 这 些 函 数 取决 于 点 在 空间 中 的 位 置 以 及 穿 
越 每 个 方向 的 辐射 ( 见 图 11.3) 。 

光 穿 越 光 场 中 的 点 后 ， 继 续 移动 至 点 外 ， 直 辐射 -Aero É, 4) 
到 遇 到 阻碍 ， 通 过 自然 反射 、 折 射 或 消失 来 改变 图 11.3 空间 中 任 一 点 通过 射线 显示 ， 这 
它 的 运动 轨迹 。 地 面 空间 光 场 中 穿越 点 的 光线 或 些 射线 起 源 于 树干 ， 树 干 分 别 由 相对 于 方位 角 
者 射线 将 在 两 个 表面 (光线 或 者 射线 的 两 端 ) A 由 和 仰角 /的 某 一 方向 穿 过 整 棵 树 。 这 个 方向 
止 。 以 这 种 方式 定义 的 每 条 线 都 包含 两 种 信息 ， 上 ， BAARNE F, y, z, 中 , 1)。 这 
且 朝 相反 方向 行进 。 如 果 光 线 不 是 很 长 ， 没 受到 是 Gershun ADEA AHA X; Adelson 和 Ber- 
阻碍 ， 那 么 在 沿 射线 的 每 一 个 点 上 这 些 信息 几乎 ”将 此 称 为 5D Soca 
完全 是 多 余 的 。 射 线 携带 的 信息 对 于 表面 和 产生 
数据 包 的 光源 来 说 是 独一无二 的 ， 这 也 是 生物 视觉 要 采集 和 使 用 的 信息 。 

Adelson 和 Bergen 5 将 Gershun 的 辐射 函数 称 为 5D 全 光 函 数 ， 表 明 一 切 从 自由 空间 中 
的 点 可 视 的 物质 都 包含 在 其 中 。 他 们 描述 了 我 们 的 视觉 系统 如 何 从 光 场 中 提取 信息 ， 以 发 现 
我 们 的 视觉 环境 中 物质 和 行为 的 特性 。 全 光 函 数 包含 了 有 关 空 间 中 凝视 的 畅通 无 阻 的 表面 信 
息 ， 以 及 加 入 时 间 (此 时 为 6D 全 光 函 数 ) 后 ， 这 些 表面 如 何 随时 间 进 行 变化 。 

J. J. Gibson 将 我 们 从 光 场 收集 的 信息 称 为 动 允 性 [91 ， 因 为 它 能 指导 行为 例如， 什么 时 
候 要 躲 开 一 个 在 不 断 靠 近 的 物体 。 对 于 采取 一 个 行动 无 用 的 信息 就 不 是 来 自 于 光 场 信息 。 前 
面 所 示 的 马赫 带 就 表明 ， 我 们 的 视觉 系统 有 时 可 通过 信和 号 处 理 来 增强 信息 并 使 某 些 特征 
(如 边缘 ) 更 加 突出 和 明显 。 忽 略 光 源 是 动 允 性 的 一 个 例子 。 对 于 行为 来 说 ， 更 重要 的 是 识 
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别 表面 的 光 反 射 性 质 ， 而 不 是 感 测 光 源 如 何 改 变 那 些 光 信号 。 例 如， 在 火光 和 在 阳光 下 看 出 
食物 是 否 可 食 或 变质 是 同样 重要 的 。 图 11. 1 中 的 虚幻 色彩 实际 上 正 表 明 ， 视 觉 系 统 是 如 何 
试图 阻止 阴暗 环境 中 的 光源 发 生变 化 ,或 者 阻止 由 照明 度 所 带 来 的 变化 ( 例如， 表面 反 射 
改变 照射 表面 的 光谱 成 分 ) 。 

从 行为 的 效用 性 方面 考虑 ， 感 知 的 物理 基础 事实 可 被 看 作 是 感知 体验 。 进 化 过 程 使 得 认 
知 得 到 优化 ， 支 持 了 生存 。 如 果 物 质 的 真实 物理 属性 对 确保 生物 体 和 基因 的 存活 而 发 生 的 行 
为 至 关 重要 ， 物 质 对 象 的 感知 就 将 对 应 于 这 些 特 性 ， 从 而 使 得 基因 能 够 传递 给 后 代 [10] 。 

针 孔 摄像 机 形成 的 图 像 取 决 于 针 孔 位 置 处 一 半 的 全 光 函 数 。 摄 像 机 的 指向 决定 选择 哪 一 
半 。 理 想 状 态 下 ， 针 孔 摄 像 机 有 一 个 微乎其微 的 洞 或 孔 ， 微 弱 的 光 通 过 这 个 洞 或 孔 ， 形 成 图 
像 。 而 在 实践 中 ， 针 孔 摄像 机 的 光圈 对 于 光 的 波长 来 说 总 是 足够 大 的 ， 因 此 它 包含 许多 理想 
针 孔 摄像 机 ， 每 一 个 都 略微 偏 移 ， 又 都 在 针 孔 摄像 机 的 光圈 平面 内 。 和 理想 情况 相 比 ， 真 实 
的 针 孔 摄像 机 能 创建 由 许多 理想 针 孔 摄像 机 复合 而 成 的 图 像 ， 在 这 个 图 像 里 ， 每 个 投影 图 像 
相对 于 其 他 图 像 都 略微 偏 移 。 增 加 光照 下 的 偏 移 和 组 合 图 像 如 图 11.4 所 示 ; 它 被 表示 为 
模糊 。 

在 图 11. 4a F, RRT Et 
孔 摄 像 机 领域 中 3 个 不 同 物 / ^ 
体 的 表面 的 3 点 。 箭头 线 表 K 
示 源 自 这 些 点 的 光线 ,它们 / \/ 
通过 针 孔 并 终止 于 摄像 机 的 一 人 一 个 
投影 表面 。 在 图 b 中 ， 针 孔 E Iy 人 
略 向 右 移动 ， 投 影 点 的 相应 s f 
位 置 , 已 经 在 向 投影 平面 上 图 11.4 一 个 具有 可 变 大 小 和 位 置 的 针 孔 摄像 机 。 在 图 a 上， 这 
转移 。 在 图 。 中， 展示 了 摄 个 小 的 光圈 是 3 个 物体 被 追踪 到 摄像 机 的 投影 面 。 小 孔径 向 右 移动 到 
像 机 从 其 在 图 a 的 位 置 扩大 图 b 说明 视 差 发 生 了 变化 ， 最 后 在 图 ce 上 孔径 由 图 a 扩大 到 了 图 上 ， 
到 它 在 图 b 的 位 置 时 ， 投 影 说 明 模 糊 位置 由 所 有 的 针 孔 图 像 关 加 产生 ， 这 些 图 像 由 填充 较 大 孔径 
平面 上 所 有 的 理想 化 复合 投 VOR 
影 。 现 在 每 个 表面 上 点 的 光线 东 都 发 送 光线 到 投影 表面 上 。 关 于 这 3 个 对 象 表面 各 点 所 得 到 
的 投影 结果 在 图 o 中 变 得 更 大 。 这 被 称 为 模糊 ， 它 和 针 孔 孔径 的 形状 相同 。 此 外 ， 模 糊 重 答 
的 这 些 区 域 ,降低 了 重 着 区 域 图 像 的 对 比 度 。 由 于 孔径 扩大 ， 更 多 的 光线 能 够 进入 ， 由 此 产 
生 的 针 孔 摄像 机 图 像 的 清晰 度 会 因 模糊 而 逐渐 降低 。 而 模糊 的 量 则 取决 于 孔 的 大 小 和 形状 。 
其 螺 的 针 孔 腔 眼 可 以 感知 从 图 像 上 的 圆 形 投影 表面 或 视网膜 形成 的 方向 。 实 验 室 的 测 
试 已 证 明 ， 鹦 赵 螺 的 视觉 系统 能 够 感受 物体 在 其 视 场 的 运动 方向 。 这 种 对 运动 的 行为 反应 证 
明了 神经 信号 处 理 系统 的 演变 过 程 ， 它 能 从 一 个 小 小 的 眼 部 光 场 提取 动 允 性 。 该 行为 对 鹦 弄 
螺 逃 离 猎 捕 来 说 非常 重要 ， 这 是 理解 鹦 药 螺 的 视觉 系统 图 像 的 一 个 例子 。 

单独 通过 孔径 的 光线 也 可 以 根据 它 从 点 通过 到 达 面 所 需要 的 时 间 长 度 来 定义 ， 光 线 从 孔 
径 进 入 到 摄像 机 ， 最 后 在 表面 形成 一 个 图 像 。 这 些 距离 都 有 些许 不 同 ， 也 就 导致 了 时 间 上 的 































































































eS 

















292 “实感 交互 : 人 工 智能 下 的 人 机 交互 技术 








略微 差异 。 该 信息 被 称 为 相位 。 生 物 系统 没有 足够 的 反应 速度 来 衡量 时 间 的 差异 ， 但 是 相位 
对 投射 表面 的 空间 影响 是 存在 的 。 

随 着 针 孔 (瞳孔 ) 孔径 的 增 大 ， 更 多 的 光 被 成 像 到 视网膜 上 ， 提 高 了 灵敏 度 ， 但 由 于 
模糊 降低 了 空间 分 辨 率 。 其 结果 便 是 一 种 更 为 复杂 的 腔 式 眼 部 结构 在 寒 武 纪 爆 炸 时 期 得 以 演 
变 ， 该 结构 在 孔径 入 口 处 有 一 个 透镜 ， 类 似 于 今天 的 摄像 机 。 一 种 名 为 “大 蜗牛 ” ( Helix) 
的 常见 蜗牛 就 有 该 结构 的 眼睛 。 具 有 唱 状 体 的 腔 式 双眼 在 遥远 的 古代 就 有 记录 ， 最 早 可 以 追 
溯 到 几 百 万 年 前 寒 武 纪 爆 炸 时 期 。 与 人 眼 相似 的 复杂 的 腔 式 眼 部 在 寒 武 纪 时 期 的 前 5000 万 
年 间 进行 了 演变 [5 。 

光 经 过 孔径 进入 ， 在 孔径 中 放置 的 透镜 吸收 了 所 有 从 位 于 焦距 内 的 物体 表面 各 点 发 射 的 
光 ， 并 把 这 些 光 聚焦 于 投影 上 的 一 个 点 。 图 像 的 细节 是 动 允 行为 的 关键 MWER), HMA, 
在 生物 系统 中 ， 眼 睛 已 经 形成 能 够 改变 焦点 的 透镜 系统 ， 目 的 是 为 了 聚焦 物体 表面 的 细节 。 
这 个 透镜 可 以 有 效 地 解决 由 于 模糊 造成 的 空间 分 辨 率 降低 的 问题 。 

透镜 的 解决 方案 需要 一 些 控 制 透镜 焦距 的 方法 。 在 焦距 之 外 的 表面 仍然 是 模糊 的 。 焦 点 
之 外 的 点 的 聚焦 位 置 是 在 投影 面 的 前 面 或 后 面 。 这 些 光 束 通过 摄像 机 或 眼睛 后 在 投影 面 形 成 
的 投影 被 分 散 得 比较 模糊 。 由 于 摄像 机 和 眼睛 上 的 光圈 是 圆 的 ， 所 以 在 投影 面 形成 的 模糊 也 
是 模糊 圈 。 当 在 这 个 系统 中 加 入 一 个 透镜 后 ， 模 糊 的 大 小 取决 于 物体 相对 于 投影 面 的 距离 ， 
无 论 它 是 在 镜头 的 焦距 前 面 还 是 后 面 。 就 像 模 糊 的 针 孔 镜头 不 仅 限制 了 空间 分 辨 率 ， 还 因为 
重合 的 模糊 圈 而 导致 图 像 对 比 度 降低 。 

有 一 种 关于 生物 视觉 比较 荒 雇 的 说 法 认为 ， 腔 式 眼 睛 对 于 相位 是 不 敏感 的 。 模 糊 信息 就 
是 相位 差异 的 产物 ， 因 为 光 在 任意 时 间 从 点 到 表面 的 折射 进入 孔径 口 的 时 间 是 不 同 的 。 生 物 
视觉 中 的 焦点 机 制 利用 模糊 来 关闭 控制 回路 ， 使 镜头 聚焦 在 由 注意 机 制 决定 的 距离 。 

透镜 系统 中 的 模糊 量 取决 于 相机 视野 中 的 孔径 大 小 和 与 焦点 表面 的 相对 距离 。 实 验 已 证 
明 ， 模 糊 是 在 视觉 系统 中 估算 已 有 图 像 不 同 深度 的 唯一 线索 各 ] 。 视 觉 系 统 能 够 提取 投影 到 
视网膜 上 的 由 相位 差生 成 的 有 用 的 信息 ， 在 这 个 有 限 的 模糊 视野 状态 下 ， 该 系统 能 够 用 的 就 
是 从 光 场 中 采集 的 相位 相关 信息 。 

随 着 摄像 机 孔径 内 理想 针 孔 的 位 置 发 生变 化 ， 包 含 在 全 光 函 数 内 的 空间 信息 也 随 之 改 
变 。 这 些 变 化 的 产生 是 由 于 视差 。 移 动 摄像 机 或 眼睛 疝 左 或 向 右 看 往往 就 能 绕 过 一 个 遮蔽 
物 ， 因 为 这 样 做 会 从 光 场 采集 到 一 个 略 有 不 同 的 全 光 困 数 。 然 而 ， 其 中 一 些 遮挡 信息 可 以 在 
镜头 或 眼睛 的 任意 位 置 获取 ， 因 为 摄像 机 的 入 口 孔 径 或 眼睛 不 是 空间 里 单一 的 一 个 点 。 只 
在 聚焦 面 上 包含 视差 信息 的 光线 丢失 ， 因 为 透镜 将 所 有 这 些 来 自 遮 挡 物 和 观察 物 的 光线 混合 
县 加 一 起 ， 聚 集 到 位 于 摄像 机 或 眼睛 内 的 投影 面 上 。 遗 挡 表 面 上 的 信息 在 投影 面 上 依然 可 以 
获取 。 

图 11. 5a 展示 了 将 球形 聚焦 到 一 个 单 透镜 摄像 机 的 投影 面 上 ， 投 影 面 显示 为 图 中 的 垂直 
线 。 射 线束 显示 ， 所 有 的 光线 的 集体 路 径 ， 它 们 从 球形 上 的 一 个 点 射出 ， 经 过 摄像 机 的 人 口 
孔径 ， 并 集中 成 投影 面 上 的 一 个 点 。 在 球形 后 的 三 角形 被 部 分 迹 挡 了 。 但 是 其 表面 射出 的 位 
于 摄像 机 光学 轴 上 的 光 依旧 被 投射 到 投射 表面 上 。 这 些 光 从 摄像 机 孔径 入 口 的 边缘 进入 并 模 
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糊 地 显示 在 投射 表面 。 Y 
将 摄像 机 置 于 绿色 三 角形 的 i 














成 焦距 离 点 上 会 使 来 自 三 角形 的 i 
光线 聚焦 。 该 说 明 对 应 的 是 
11.5b 所 示 。 摄 像 机 通过 改变 与 a) 
投影 面 的 距离 来 改变 焦点 ， 如 
11.5 所 示 。 腔 式 眼 睛 会 改变 透 ici : è 
的 焦距 ， 使 其 视野 内 的 不 同 焦距 出 ' 
聚焦 于 眼睛 的 视网膜 表面 。 这 些 
方法 基本 都 可 以 实现 同一 目标 。 
角形 的 点 是 在 锐 聚 焦点 ， 图 11.5 图 a 内 ， 一 个 球形 与 其 后 的 三 角形 通过 透镜 成 像 显 

管 它 被 沿 着 摄像 机 或 眼睛 主 光 示 在 投射 表面 。 在 图 b 内 ， 通 过 改变 透镜 的 焦距 ， 三 角形 被 置 于 
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点 位 置 。 虽然 三 角形 被 球形 ge Gl 点 ， 
当 存 在 这 焦点 位 3 角形 被 球形 遮挡 ， EM Be AR 因为 


i = 中 $i A 力 fj fy J 以 集 。 -一 /有 /一 X 比 度 
种 情况 时 ， 收 变焦 距 可 以 使 遗 挡 该 图 中 透镜 入 口 边缘 处 有 足够 的 光 可 以 被 采集 形 的 对 


因为 遮挡 的 球形 的 模糊 图 像 将 降级 ( 即 衰减 )。 受 限 的 改变 焦点 
表面 可 见 。 庶 挡 的 表面 的 可 见 性 cae < > 


+ 能 “看 穿 ”该 球形 
取决 于 封 堵 器 大 小 、 诞 挡 物 和 被 
遮挡 物 表 面 的 间隔 距离 、 图 像 的 对 比 度 和 入 口 孔 径 或 瞳孔 大 小 。 通 过 改变 焦点 是 可 能 看 到 这 
挡 表 面 后 的 物体 的 。 

普通 摄像 机 无 法 捕获 包含 这 些 射线 的 角度 的 信息 ,一旦 图 像 被 拍摄 ， 该 信息 将 会 丢失 。 
在 生物 视觉 系统 ， 该 信息 被 感 测 为 模糊 ， 并 且 可 以 通过 改变 焦点 ,或 者 通过 稍微 转换 眼睛 的 
方位 来 获取 。 由 于 旋转 中 心 和 眼 的 光学 节点 是 相对 彼此 移动 的 ， 一 个 微小 的 移动 就 会 产生 一 
个 平移 的 变化 和 一 个 新 的 前 进 方向 。 生 物 视觉 已 经 发 展 到 使 用 所 有 这 些 技术 来 获取 光 场 的 视 
差 信息 。 

运动 视差 是 由 物体 运动 产生 的 ， 包 括 物体 在 摄像 机 或 眼睛 的 视野 内 的 运动 ， 或 者 摄像 机 
和 眼睛 自身 的 运动 。 运 动 视差 是 由 视频 录制 下 来 的 ， 在 观看 时 能 呈现 非常 有 深度 感 的 图 像 ， 
其 中 的 物体 在 视野 中 或 摄像 机 中 移动 。 前 面 提 到 的 鹦鹉 螺 的 例子 表明 ， 生 物 视 觉 系 统 的 早期 
进化 创造 了 能 够 从 光 场 中 提取 视差 信息 的 机 制 。 双 目 或 多 目的 视觉 系统 与 重 琶 的 视野 也 从 静 
态 图 像 中 提取 了 视差 信息 5 

我 们 很 难 觉察 到 可 以 通过 改变 眼睛 的 焦距 来 跨越 遮挡 物 ， 但 这 却 被 认为 是 小 物体 在 近视 
野 内 的 普遍 现象 。 研 究 证 明 图 像 内 的 模糊 信息 能 在 感知 深度 时 发 挥 作用 i i。 当 使 用 普通 的 
静止 视频 摄像 机 的 时 候 ， 光 场 内 能 够 引起 这 类 感知 的 视差 信息 就 会 丢失 。 如 果 没 有 这 些 信 
息 ， 这 些 动作 是 无 法 实现 的 。 未 来 的 成 像 系 统 将 能 增加 还 原 此 类 信息 的 能 力 ， 也 因 如 此 ， 有 
助 于 改进 目前 的 视频 成 像 技 术 。 

如 果 没 有 一 个 活动 进程 来 分 析 图 像 数 据 ， 相 机 是 无 法 理解 图 像 的 。 唯 一 可 以 被 普通 摄像 
机 捕捉 的 数据 可 以 描述 为 一 个 2D 数组 ， 该 数组 的 信号 值 根据 其 在 投射 平面 的 位 置 进行 索 
引 。 至 于 眼睛 ， 图 像 形成 所 在 的 视网膜 上 遍布 了 光 感 受 器 ， 它 把 图 像 作为 点 状 神经 信号 进行 
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编码 ， 这 些 信 号 由 大 脑 视觉 通路 内 的 神经 元 网 络 分 析 。 

摄像 机 视野 中 到 物体 的 距离 可 以 从 图 像 中 的 物体 大 小 、 受 其 他 物体 遮挡 的 物体 ， 模 糊 、 
视角 ， 或 由 于 光线 在 大 气 的 散射 而 导致 的 对 比 度 衰减 等 信息 获取 。 投 射 模糊 的 视差 信息 即使 
在 静态 图 像 中 也 是 一 个 从 光 场 中 获取 物体 距离 的 有 用 信和 号。 为 了 从 这 些 信 号 中 提取 距离 信 
E, 图像 处 理 过 程 必须 能 够 将 图 像 分 割 成 独立 的 对 象 。 这 解释 了 在 图 像 分 析 中 ， 生 物 视 觉 和 
成 像 处 理 两 者 在 根本 上 均 为 物体 导向 的 过 程 。 

我 们 的 视觉 系统 已 经 形成 了 能 够 利用 视差 来 估计 物体 距离 和 物体 接近 速率 的 神经 机 制 。 
这 些 佑 测 是 基于 一 段 只 有 几 毫 秘 的 从 光 场 中 采样 的 数据 得 出 的 。 目 标识 别 和 鉴定 、 线 性 的 和 
空中 的 视角 、 遮 挡 、 熟 悉 性 和 其 他 的 视网膜 成 像 的 特点 ， 都 被 用 于 视觉 系 统 以 增强 我 们 的 图 
像 理解 力 ， 包 括 对 视觉 领域 的 物体 位 置 、 大 小 、 范 围 和 地 势 等 。 


11.3 HARR 




















光 场 信息 透 过 瞳孔 会 取决 于 眼睛 的 焦点 而 或 多 或 少 被 视觉 感知 。 如 上 所 述 ， 聚 焦 将 所 有 
通过 瞳孔 的 光线 聚集 到 视网膜 上 一 点 ， 这 些 光 线 是 透镜 焦距 内 物体 表面 的 各 个 点 反 出 的 。 失 
焦 的 点 反射 的 光线 分 散在 视网膜 上 呈现 一 圈 圈 模糊 图 像 ， 这 些 模糊 图 像 的 大 小 取决 于 焦点 及 
瞳孔 直径 。 图 11.6 说 明了 从 两 个 箭头 的 四 个 端点 发 射出 的 四 束 光 线 在 模型 眼中 的 聚焦 。 最 
左边 的 箭头 是 在 焦点 上 的 ， 而 另 一 个 则 不 是 。 























图 11.6 该 图 展示 了 模型 眼 聚 焦 蓝 色 箭 头 。 透 明 的 光束 来 自 两 个 箭头 的 四 个 端点 ， 它 们 形成 了 视 
网 膜 上 的 成 像 的 端点 。 最 左边 的 箭头 图 像 在 视网膜 上 清晰 呈现 ， 且 各 光束 聚焦 于 视网膜 上 的 一 点 。 另 
一 个 箭头 的 物象 则 聚焦 于 视网膜 后 面 的 投射 面 上 。 从 该 箭头 端点 射出 的 光线 模糊 地 分 散在 视网膜 上 的 
一 大 片区 域 。 当 失 焦 物体 遮挡 住 聚焦 的 物体 时 ， 这 些 模糊 降低 了 聚焦 物体 的 图 像 对 比 度 




































































聚焦 投影 表面 的 图 像 可 以 集合 通过 瞳孔 的 光线 所 传递 的 信息 。 当 光线 传递 的 信息 有 相关 
性 时 ，( 即 从 透镜 焦距 内 的 表面 上 同一 点 发 出 的 光线 ) 集合 信号 就 得 到 加 强 。 当 投射 到 视 网 
膜 上 的 光线 源 于 不 同 表面 上 的 点 时 ， 信 息 便 不 具 相 关 性 ， 而 且 混杂 在 一 起 ， 难 以 辨别 清楚 ， 
进而 降低 信号 强度 和 图 像 对 比 度 。 我 们 从 光 场 中 捕 换 的 信息 并 未 丢失 ， 但 若 想 获 取 就 得 聚焦 
于 不 同 表面 。 

传统 2D 和 3D 立体 图 像 对 成 像 系 统 中 图 像 的 捕捉 和 重建 不 支持 重新 聚焦 ， 并 且 3D 立体 
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图 像 对 系统 中 仅 有 的 视差 信息 又 受 两 台 摄像 机 的 位 置 限定 。 当 欣赏 自然 风景 时 ， 我 们 移动 双 
眼 ， 传 递 信息 至 大 脑 ， 大 脑 快速 运转 从 光 场 中 获得 更 多 的 视差 信息 。 双 眼 可 以 重新 聚焦 以 分 
配 并 整理 从 光 场 中 所 有 点 反射 进 我 们 瞳孔 内 的 光线 。 

传统 图 像 技 术 无 法 保存 聚焦 信号 和 大 量 的 视差 信息 ， 但 我 们 的 视觉 系统 却 已 经 进化 并 可 
以 利用 这 类 信息 。 其 结果 是 让 人 烦恼 不 快 的 。 比 如 在 观看 大 屏 视频 时 ， 观 众 可 能 试图 观察 焦 
点 之 外 的 物体 或 转 头 环视 屏幕 。 不 管 如 何 努 力 ， 他 们 都 无 法 将 一 个 离 焦 的 物体 置 于 显示 的 焦 
点 ， 他 们 也 无 法 越过 遮挡 物 看 到 后 面 的 图 像 。 

在 2D 视频 序列 中 移动 摄像 机 或 物体 在 场景 中 移动 时 ， 可 以 唤起 人 们 对 景深 的 感知 。 但 
是 运动 一 旦 停止 ,这些 运 动 视差 驱动 的 视觉 线索 就 会 伴随 着 层次 感 一 起 消失 。 在 标准 的 2D 
和 s3D 图 像 中 ， 无 法 穿越 遮挡 物体 以 及 固定 的 图 像 焦点 是 无 法 获得 光 场 数据 导致 的 。 

具有 保留 光 场 中 感知 信息 功能 的 摄像 机 已 经 问世 。 很 多 人 为 研发 这 种 摄像 机 献计 献策 ， 
如 Lippmann 和 Ives [2]1 以 及 最 近 的 Adelson, Wang [3] 和 Ng A"). Lytro 近期 推出 一 款 光 
场 摄像 机 ，Raytrix 研发 的 商务 光 场 摄像 机 也 车 势 待 发 !55] 。 理 解 这 些 摄 像 机 捕捉 光 场 中 信息 
的 工作 原理 后 ， 就 会 明白 建立 一 个 真实 光 场 显示 的 要 求 ， 它 需要 能 够 重 塑 任 何 头 部 的 视差 信 
息 以 及 文 持 关注 驱动 的 聚焦 。 

Lytro 和 Raytrix 的 全 光 摄 像 机 设计 与 普通 摄像 机 设计 或 者 眼睛 的 基本 结构 相似 。 为 阐述 
全 光 摄 像 机 的 工作 原理 ， 这 里 会 用 到 结构 与 眼睛 相似 的 球形 摄像 机 。 我 们 将 全 光 摄 像 机 的 光 
圈 看 作 瞳 孔 ， 形 成 图 像 的 投射 面 看 作 视 网 膜 。 眼 睛 的 晶状体 ， 称 为 主 镜头 ， 位 于 非常 靠近 眼 
睛 瞳孔 的 地 方 。 我 们 假设 这 与 全 光 摄 像 机 的 结构 相同 ， 尽 管 这 并 非 必要 条 件 16] 。 

全 光 摄 像 机 内 有 一 组 微型 针 孔 摄像 机 ， 这 些 摄像 机 的 位 置 就 如 同 视 网 膜 在 眼睛 中 的 位 
置 。 这 些 针 孔 摄像 机 也 可 配置 镜头 ， 但 不 是 必需 。 这 些 位 于 投射 面 的 微小 摄像 机 上 能 够 捕捉 
透 过 瞳孔 的 光线 投射 物象 。 每 个 针 孔 摄像 机 都 有 唯一 的 光圈 ， 位 于 这 组 摄像 机 内 统一 间隔 的 
位 置 。 光 圈 位 置 统一 有 利于 确保 光 场 信息 采样 的 一 致 性 ， 但 这 也 不 是 强制 要 求 。 例 如 ， 人 有 眼 
并 没有 一 系列 相同 的 感光 器 ， 因 为 我 们 感知 的 物象 是 视觉 系统 构建 的 ， 并 非 仅 仅 是 视网膜 上 
形成 的 短暂 成 像 。 图 11.7 阐述 了 两 个 被 多 倍 放 大 的 此 类 针 孔 摄像 机 ;而 该 图 中 的 其 他 针 孔 
摄像 机 则 太 小 而 无 法 辨认 。 

每 个 微型 摄像 机 都 捕捉 着 差别 细微 的 物象 ， 这 取决 于 摄像 机 在 列 阵 中 的 位 置 ， 光 线 从 
3D 物体 空间 的 各 个 点 反射 进入 全 光 摄 像 机 的 方向 取决 于 这 些 点 在 视野 中 的 位 置 。 光 线 通 过 
全 光 摄 像 机 的 光圈 被 投射 到 微型 摄像 机 针 孔 列 阵 中 的 位 置 则 取决 于 全 光 摄 像 机 的 主 镜头 焦 
距 。 全 光 摄 像 机 并 不 需要 可 以 调 焦 的 镜头 来 让 视野 内 的 点 清晰 成 像 。 利 用 全 光 摄 像 机 数据 重 
建 2D 图 像 ， 且 该 图 像 聚焦 的 距离 与 主 镜头 不 同 ， 这 是 可 以 通过 重组 微型 针 孔 摄像 机 捕捉 到 
的 数据 而 实现 的 。 

3D 物体 中 分 离 的 点 射出 的 两 束 光线 进入 全 光 摄 像 机 光圈 (与 瞳孔 相同 的 位 置 ), 一 般 会 
在 不 同 的 针 孔 摄像 机 中 成 像 。3D 物体 空间 中 同一 点 反射 出 的 两 束 光线 进入 全 光 摄 像 机 后 只 
会 被 投射 到 微型 摄像 机 列 阵 的 相同 针 孔 中 。 关 于 这 点 内 容 体 现在 图 11.7 中 ， 该 图 追溯 四 束 
通过 瞳孔 的 光线 被 投 映 到 一 系列 针 孔 摄像 机 内 。 一 道 从 这 两 个 箭头 顶端 反射 的 光线 穿 过 瞳孔 
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中 心 ， 这 些 光 线 在 该 图 中 标 为 虚线 。 另 一 道 从 两 个 箭头 的 末端 反射 的 光线 穿 过 瞳孔 外 围 的 同 
一 位 置 ， 这 些 光线 在 此 图 中 标 为 实 线 。 
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图 11.7 对 左边 箭头 顶端 反射 的 两 条 光线 和 右边 箭头 顶端 反射 的 两 条 光线 进行 追踪 ， 从 上 
面 的 小 插图 发 现 它们 最 终 聚 焦 于 不 同 的 座 度 。 左 边 的 箭头 反射 的 光线 聚焦 于 视网膜 上 ， 而 右边 
的 箭头 反射 的 光线 聚焦 于 视网膜 的 后 面 。 放 大 的 插 岁 呈现 了 这 些 光 线 的 轨迹 ， 它 们 或 被 光圈 捕 
捉 或 流失 ， 这 点 可 以 参考 位 于 视网膜 上 的 两 个 针 孔 摄像 机 间 的 绿色 虚线 位 置 


























最 左边 的 箭头 是 聚焦 的 ， 它 在 主 镜头 的 焦距 内 ， 这 就 使 镜头 焦距 内 摄像 机 视野 中 的 点 在 
视网膜 上 形成 清晰 物象 。 实 线 和 虚线 都 被 镜头 投射 到 微型 摄像 机 中 针 孔 摄像 机 的 同一 位 置 。 
这 两 条 光线 从 这 一 位 置 穿 过 针 孔 后 被 投射 到 针 孔 摄像 机 的 后 面 。 光 线 被 投射 到 针 孔 摄像 机 后 
面 的 位 置 与 光线 进入 光圈 时 的 位 置 相关 。 这 些 位 置 与 光线 从 箭头 顶端 传播 过 程 中 的 相位 差 相 
关 。 传 统 摄像 机 则 丢失 了 这 些 方向 信息 。 大 部 分 其 至 全 部 被 投射 到 这 个 针 孔 中 的 光线 都 是 从 
最 左 端 箭头 的 同一 点 发 出 的 。 投 射 在 针 孔 摄像 机 后 面 的 物象 记录 了 每 条 光线 的 位 置 和 腹面 
相位 。 

追踪 右边 第 头顶 端 反 射 光线 轨迹 的 虚线 和 绿色 实 线 被 投射 到 针 孔 列 阵 的 不 同位 置 ， 原因 
是 这 个 箭头 不 在 焦距 内 。 不 同 的 针 孔 摄像 机 会 记录 这 两 条 光线 的 方向 信息 。 全 光 摄 像 机 捕捉 
到 这 些 光线 中 的 所 有 方向 信息 ， 因 此 不 会 有 方向 信息 丢失 。 瞳 面 或 光圈 面 早先 就 集合 了 一 系 
列 全 光 函 数 ， 各 个 函数 在 光圈 面 内 彼此 间 有 微小 的 位 移 关联 。 微 型 摄像 机 阵列 就 是 模拟 这 些 
全 光 函 数 。 摄 像 机 阵列 的 投射 面 上 任意 位 置 都 与 一 条 光线 或 者 某 个 全 光 函 数 的 指向 关联 。 全 
光 摄像 机 可 同时 高 效 地 模拟 全 部 函数 。 

重新 排列 全 光 摄 像 机 收集 的 数据 可 以 重建 一 张 不 同 于 全 光 摄 像 机 主 镜头 焦距 的 2D 图 
像 ， 该 图 可 在 焦距 内 任意 聚焦 。 重 建 后 的 图 片 分 辨 率 受 到 微型 摄像 机 阵列 和 镜头 分 辨 率 的 限 
制 。 能 在 任何 深度 重建 2D 图 像 的 全 光 成 像 系统 不 可 以 是 被 动 系统 ; 它 要 求 图 像 处 理 过 程 。 
这 种 摄像 机 最 基本 的 工作 原理 与 Lippman 描述 的 系统 相似 [>] 。 
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总 之 , 场景 中 焦距 内 的 点 发 射 的 光线 会 被 阵列 中 特定 的 针 孔 摄像 机 捕捉 到 ， 焦距 外 的 点 
发 射 的 光线 会 被 不 同 的 针 孔 摄像 机 捕捉 到 。 捕 捉 方向 信息 是 捕捉 自由 空间 中 小 范围 光 场 的 关 
键 ， 比 如 全 光 摄 像 机 入 场 光圈 的 定位 。 

图 11.8 中 冰释 了 3D 物体 空间 中 的 位 于 相对 眼睛 同一 方向 上 一 远 一 近 两 个 点 在 全 光 摄 像 
机 中 的 表现 。 在 图 11.7 所 阐述 的 两 条 箭头 的 基础 上 ， 此 处 利用 多 个 点 进行 前 述 。 这 些 图 片 
呈现 了 摄像 机 的 顶 视 角 ， 最 左边 箭头 指向 摄像 机 视角 右 方 ， 而 右边 箭头 则 指向 左边 。 右 边 箭 
头 失 焦 ， 其 成 像 基 部 下 挡 了 最 左边 箭头 聚焦 成 像 的 一 部 分 基部 光线 。 























图 11.8 该 图 中 间 是 一 个 有 眼睛 的 项 视图 ， 有 眼睛 聚焦 于 指向 观察 者 右 方 的 绿色 箭头 。 这 箭头 部 分 被 失 焦 
的 绿色 箭头 遮挡 。 图 中 左 侧 紫 线 代 表 着 光 场 显示 的 水 平 横 截 面 。 绿 色 虚 线 表 示 显 示 屏 发 出 的 离散 地 重 构 包 
含 在 光 场 中 的 模糊 信号 的 光线 。 假 设 重 构 模 糊 的 光线 数 多 到 足够 促使 眼睛 聚焦 ， 那 就 意味 着 这 个 显示 屏 的 
观察 者 可 以 在 重 构 的 观察 空间 内 以 任意 景深 聚焦 。 尽 管 如 此 ， 重 构 的 模糊 物象 看 似 示 意图 右 下 角 B 插图 中 
呈现 的 视网膜 上 一 系列 密集 的 绿 点 ， 或 如 左边 A 插图 中 逐渐 融 为 模糊 物象 一 系列 交 人 的 小 圆圈 。 这 里 的 关 
键 在 于 驱动 人 类 视线 焦距 控制 所 需 的 分 辨 率 和 在 光 场 显示 器 中 产生 高 图 像 品质 所 需 的 光线 充裕 度 可 能 会 有 
巨大 不 同 














































































































图 11. 8 中 虚线 代表 右边 箭头 基部 反射 的 光线 穿 过 摄像 机 光圈 (和 暂时 忽略 从 右边 箭头 基 
部 延续 直到 坚 线 的 那 部 分 虚线 ) ， 被 投射 到 摄像 机 投射 面 或 视网膜 上 微型 摄像 机 阵列 相 邻 的 
五 个 微型 摄像 机 光圈 中 。 这 些微 型 摄像 机 哩 未 在 该 示意 图 中 呈现 ,但 却 将 被 置 于 虚线 横 穿 视 
网 膜 的 中 心 位 置 。 

微型 摄像 机 的 分 布 决定 被 捕捉 图 像 的 空间 分 辨 率 。 该 图 左上 角 A 插图 是 全 光 摄 像 机 投 
射 面 上 的 物体 成 像 搬 图 。 投 射 面 上 右边 箭头 的 失 焦 物 象 基部 的 大 圈 表 示 该 箭头 基部 的 一 个 点 
的 模糊 物象 。 大 闪 内 的 五 个 小 圆 问 表示 相 邻 微型 摄像 机 阵列 内 的 像素 空间 ， 表 明了 该 点 反射 
光线 的 方向 信息 。 

主 镜头 视 轴 上 的 微型 摄像 机 将 从 聚焦 于 摄像 机 投射 面 上 的 左边 箭头 基部 反射 的 光线 中 取 
样 3 条 光线 ， 而 且 3 条 光线 未 在 示意 图 中 标 出 。 左 边 的 箭头 遮 项 了 右边 箭头 基部 的 反射 光 
线 ， 而 被 谈 珊 的 光线 会 穿 过 主 镜头 的 左 半 部 分 。 通 过 图 像 处 理 重 新 排列 数据 可 以 重建 2D 图 
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像 ， 重 建 的 图 像 将 摄像 机 的 焦点 从 左边 箭头 转移 到 右边 箭头 。 如 此 ， 右 边 箭头 基部 的 五 个 圆 
圈 将 组 合 在 一 起 构成 变 为 聚焦 箭头 的 重建 物象 的 一 个 像素 。 置 于 全 光 摄 像 机 视 轴 上 微型 摄像 
机 捕捉 的 左边 箭头 基部 反射 的 3 条 取样 光线 将 在 重新 聚焦 和 重 构 的 2D 图 像 中 被 分 散 变 得 模 
糊 不 清 。 

现在 换 种 方式 分 析 图 11. 8 中 的 示意 图 。 假 设 最 左边 的 垂 线 是 从 光 场 中 显示 屏 上 方 观察 
到 的 线 。 这 样 分 析 示 意图 ， 形 似 眼 睛 的 摄像 机 不 再 是 摄像 机 ， 而 是 真正 的 眼睛 。 垂 线 表 示 的 
显示 屏 由 许多 投影 仪 组 成 ， 每 个 显示 屏 上 的 点 都 在 其 位 置 上 重 构 全 光 函 数 。 在 观察 者 可 以 突 
见 的 重 塑 的 光 场 内 ， 观 察 空间 位 于 显示 屏 的 右边 ， 即 示意 图 中 眼睛 所 在 的 位 置 。 显 示 屏 必须 
可 以 重建 存在 于 观察 空间 及 屏幕 后 面 的 有 限 空间 内 的 全 光 函 数 ， 所 以 当 眼 睛 位 于 观察 空间 内 
任意 一 点 时 ， 显示 屏 都 能 模拟 重建 那些 类 似 虚 拟 的 全 光 函 数 。 

如 今 对 于 分 辨 率 至 少 有 两 种 要 求 : 第 一 ,为 了 优质 的 图 像 ， 显 示 元 间距 要 很 合理 才能 
建 可 接受 的 空间 频率 范围 。 与 空间 细节 有 关 的 眼睛 能 见 度 窗口 受到 如 下 限制 : 明亮 度 、 对 比 
度 和 空间 频率 ! 7] 。 如 今 对 于 高 质量 的 显示 屏 ， 其 设计 在 近 观 察 点 可 生成 近 30 线 对 空间 信 
息 。 对 于 人 们 拿 着 的 手机 ， 其 显示 屏 可 以 距 眼 睛 很 近 ， 这 就 意味 着 每 英寸 超过 200 像素 的 
点 距 。 

在 多 数 观察 条 件 下 ， 图 片 重组 信号 中 几乎 没有 足够 的 对 比 度 要 求 重建 图 像 中 更 多 的 空间 
信息 。 如 果 能 见 度 窗口 的 空间 分 辩 率 被 突破 ， 超 过 此 限制 的 额外 空间 分 辩 率 便 可 提高 图 片 质 
量 。 增 加 的 细节 可 以 产生 改善 色 阶 的 空间 拌 动 效 果 ， 通 过 一 位 或 多 位 的 灰 度 信息 重建 图 片 。 
通过 至 少 3 个 量 级 范围 调节 图 片 元 素 强度 的 能 力 和 构建 纯正 黑色 的 能 力 都 是 主观 图 像 质量 的 
决定 因素 。 

光 场 中 含有 使 神经 系统 完成 聚焦 回路 的 信号 ， 因 此 这 些 信 号 一 定 也 会 被 重组 。 我 们 并 没 
有 充足 的 理由 做 出 如 下 假设 : 提供 充足 的 聚焦 信号 是 为 实现 令 人 满意 的 图 片 质量 提供 充足 
信号 。 

这 里 对 图 11. 8 做 另 一 种 分 析 ， 显 示 屏 前 面 有 一 个 向 右 的 箭头 ， 屏 幕 上 有 一 个 向 左 的 箭 
头 。 虚 线 表示 光 场 内 显示 屏 发 出 后 进入 观看 显示 屏 的 眼睛 中 的 光线 。 仅 针对 此 例 中 显示 屏 的 
水 平方 向 而 言 ，5 条 光 场 图 片 元 素 投射 光线 经 过 代表 右边 箭头 基部 的 一 个 点 ， 之 后 穿 过 眼睛 
瞳孔 在 视网膜 上 成 像 。 如 果 5 条 光线 必须 穿 过 特定 大 小 直径 的 瞳孔 以 完成 聚焦 控制 回路 ， 那 
么 这 就 要 确定 从 观看 者 观看 到 的 显示 屏 屏 幕 到 观察 空间 内 焦点 间 的 最 远 距 离 。 在 屏幕 后 方 同 
样 存在 一 个 相似 的 距离 限制 。 

当 眼 睛 聚焦 于 图 11. 8 光 场 中 屏幕 表面 上 左边 箭头 时 ， 重 构 右 边 箭头 基部 的 5 条 光线 一 
定 会 在 观察 者 的 视网膜 上 形成 模糊 的 光圈 。 理 论 上 讲 ， 在 观察 者 视网膜 上 形成 的 模糊 光圈 会 
有 重合 并 被 放大 ， 就 像 该 图 中 的 A 捅 图 。 然 而， 如 果 这 些 光 线 向 B 插图 中 那样 呈现 明亮 的 
AR, 没有 重合 ， 那 么 这 些 光线 便 足 以 驱动 聚焦 但 却 不 足以 确保 足够 好 的 图 片 质量 。 这 些 光 
线 的 光学 要 求 和 驱动 聚焦 所 需 的 光线 数量 至 今 仍 是 未 知 数 ， 因 为 到 现在 还 没有 进行 能 确定 这 
些 要 求 的 合理 实验 。 

图 11.8 中 显示 技术 的 另 一 方面 是 通过 显示 屏 让 人 感知 观察 者 与 屏幕 之 间 的 距离 。 在 此 
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例 中 ， 右 边 箭头 遮挡 了 左边 箭头 ， 所 以 左边 箭头 基部 投射 的 光线 并 没有 全 部 展现 出 来 。 但 假 
设 观察 者 要 逐渐 靠近 显示 屏 。 这 种 情况 下 ， 将 模型 眼 摆 放 在 光 场 中 显示 屏 前 面 重 构 的 虚拟 箭 
头 和 屏幕 之 间 。 在 虚拟 重建 的 光 场 中 ， 人 体 就 可 以 穿 过 显示 屏 前 重建 的 虚拟 物体 。 一 旦 发 生 
这 种 情况 ， 虚 拟 物体 造成 的 遮挡 就 会 消失 。 光 场 显 示 必 定 可 以 感知 观察 者 相对 于 显示 屏 的 位 
置 ， 并 据 此 调整 重建 的 物象 。 

如 今 3D 立体 图 像 对 成 像 显示 中 有 一 种 剪辑 伪 影 技术 ， 在 娱乐 影视 产业 中 被 称 为 边缘 伪 
影 。 在 日 常 视觉 体验 中 ， 人 们 能 感受 到 物体 被 遮挡 ， 比 如 看 着 房 内 的 人 走 过 一 扇 窗 户 。 此 人 
走 到 墙 后 面 就 会 消失 ， 这 是 最 平常 不 过 的 想法 。 在 图 像 对 显示 重 构 方面 ， 尤 其 在 娱乐 影视 和 

电影 中 经 常 要 在 显示 屏幕 上 重 构 各 种 物体 和 任务 。 当 这 些 物体 和 人 物 移动 超出 屏幕 上 下 左右 
重建 的 图 像 对 边界 时 ， 物 体 或 人 物 的 影像 就 会 被 不 明显 的 遮挡 物 遮 挡 ， 这 就 会 破坏 画面 感 ， 
让 人 看 着 很 奇怪 。 

娱乐 界 综合 采用 4 种 方法 避免 这 些 伪 影 。 屏 幕 前 面 和 边缘 的 物体 会 被 设 为 失 焦 状态 以 降 
低 它 们 在 屏幕 中 的 显著 度 和 屏幕 上 的 色彩 对 比 度 。 在 屏幕 前 方 ， 物 体 接 近 屏 幕 边缘 时 就 会 被 
尝 影 变 迹 或 者 空间 变 迹 。 这 同样 使 靠近 屏幕 边缘 的 物体 色彩 对 比 度 降低 。 在 图 像 对 中 一 个 或 
两 个 图 像 中 有 浮动 窗口 或 高 对 比 度 的 遮挡 边缘 (如果 剧院 有 的 话 ) 就 能 形成 一 种 遮挡 屏幕 
前 面 物体 的 表面 。 第 四 种 方法 是 通过 改变 图 像 对 视差 来 调节 屏幕 不 同 部 分 物体 的 平整 度 一 一 
一 般 将 屏幕 前 面 或 边缘 部 位 的 物体 显示 得 更 平整 以 降低 对 这 些 伪 影 的 显著 感知 。 

图 11. 9 展现 了 屏幕 光 场 显示 重 构 的 等 效 剪 辑 伪 影 。 在 图 11.9 上 图 中 ， 上 指 和 下 指 的 箭 
头 被 光 场 中 显示 面 产生 并 进入 观察 者 瞳孔 的 光线 全 部 体现 出 来 。 图 11.9 下 图 则 表明 如 果 将 
图 像 和 观察 者 转化 到 左边 (请 记 住 这 是 一 幅 顶 视图 ) 就 会 发 生 光 线 剪辑 。 如 今 显 示 屏 上 没 
有 重 构 下 指 箭头 顶端 的 空间 ， 它 就 这 样 从 视野 中 消失 了 。 这 基本 上 就 是 在 当今 的 3D 图 像 对 
重 构 中 ， 边 缘 伪 影 的 大 体 情况 。 当 今 娱乐 视频 行业 是 否 使 用 相似 的 方案 来 减轻 这 种 因素 是 未 
来 研究 与 开发 的 方向 。 

图 像 是 在 视频 通信 系统 中 被 计算 机 图 像 系统 捕捉 或 重建 的 ， 在 该 系统 中 人 们 有 可 能 控制 
物体 在 显示 屏 上 的 尺寸 大 小 和 视角 。 他 们 只 能 揣测 这 些 参 数 会 对 光 场 中 显示 屏 上 重建 的 物象 
外 观 产 生 怎样 的 影响 。 如 见 的 3D 图像 对 成 像 技 术 的 男 一 种 独特 现象 是 纸板 效应 。 从 体育 馆 
顶部 利用 广角 远 摄 镜头 观看 ， 从 3D 图 像 对 显示 屏 上 观看 足球 比赛 使 得 观看 者 犹如 扁平 的 微 
型 人 。 造 成 这 种 感知 现象 的 原因 现在 已 成 为 一 个 研究 话题 。 或 许 是 因为 不 同 宽 景深 和 强 聚 焦 
的 场景 之 间 夸 张 的 差异 所 造成 的 缩放 比例 问题 ， 但 是 这 种 感知 伪 影 产生 的 确切 原因 还 待定 。 
不 管 怎样 ， 随 着 光 场 显示 和 光 场 捕捉 技术 成 为 视频 通信 系统 工具 集 的 一 部 分 ， 类 似 的 问题 还 
会 发 生 。 

适用 于 2D 图 片 展示 的 同一 时 空 分 辨 率 要 求 同 样 适用 于 光 场 中 的 显示 屏 。 从 相距 半 米 的 
距离 观看 ，100dpi 的 显示 屏 上 每 度 可 视角 产生 约 15 线 对 ， 这 足以 完成 对 于 此 观看 距离 的 展 
示 任 务 。 对 于 可 以 近 距 离 观 看 到 的 手持 式 显示 器 ，200dpi 或 者 更 高 的 清晰 度 才 是 合理 的 。 这 
与 现在 显示 屏 的 时 间 分 辩 率 要 求 一 样 。 避 免 或 控制 如 闪烁 、 抖 动 运动 模糊 等 瞬间 伪 影 和 最 近 
记录 的 3D 图 像 对 成 像 中 的 时 间 伪 影 08] ， 都 得 考虑 确定 任何 具体 任务 要 求 的 帧 频 ， 尤 其 当 
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11.9 该 图 上 图 表明 光 场 中 显示 屏 〈 最 左边 的 垂 线 ) 的 侧 视 图 ， 重 构 了 聚焦 的 上 指 第 
头 和 遮蔽 该 箭头 一 部 分 的 失 焦 的 下 指 箭头 。 屏 幕 下 部 发 出 的 光线 对 于 呈现 失 焦 的 下 指 箭头 模 
糊 的 顶端 是 必要 的 。 如 果 该 图 像 和 观看 者 一 起 向 该 屏幕 下 方 移动 ,那么 在 光 场 中 就 会 发 生 更 
加 常见 的 边缘 伪 影 ， 正 如 在 3D 图 像 对 展示 中 ， 那 个 本 该 遮挡 下 指 箭头 顶端 的 物体 ， 即 那个 
理应 在 观察 者 与 箭头 之 间 的 物体 正 逐 渐 消失 ， 这 对 于 观察 者 来 说 很 奇怪 









































交错 显示 成 为 这 些 设 备 重 构 结 构 体 系 的 一 部 分 时 。 











11.4 迈 向 “真实 的 ”3D 视觉 显示 


























综 上 所 述 ， 把 显示 屏 看 作 全 光 函 数 生成 带 面 板 ， 就 可 以 理解 真实 的 3D 立体 显示 的 光学 
成 像 系 统 的 必要 条 件 了 。 形 象 点 说 ， 就 是 把 显示 系统 看 作 一 肩 窗 户 。 想 象 把 一 扇 窗户 分 割 成 
很 多 小 块 一 一 小 到 当 我 们 堵 住 窗户 只 留 其 中 一 小 块 时 ， 我 们 只 能 透 过 这 一 小 块 空 窗 看 到 色彩 
和 亮度 ， 空 窗 太 小 根本 无 法 疯 见 图 像 细节 。 纤 合 前 面 各 节 的 内 容 描述 ， 这 里 的 窗户 可 以 视 为 
针 孔 阵列 ， 从 每 个 针 孔 中 射 入 的 光线 是 位 于 针 孔 上 的 点 的 全 光 函 数 的 一 半 。 在 我 们 描述 显示 
系统 时 ， 每 块 小 窗户 就 对 应 一 个 像素 。 例 如 ， 图 11. 10 显示 光线 从 小 块 窗户 的 近 中 心 位 置 
穿 过 。 

穿 过 这 小 块 窗户 的 光线 色彩 及 亮度 取决 于 光线 的 角度 。 从 图 11. 10 光线 进入 观看 者 眼睛 
的 角度 分 析 ， 观 察 者 看 到 墙壁 的 颜色 ， 但 是 换个 角度 他 就 可 以 看 到 屋顶 或 者 一 块 窗户 的 颜 
色 。 因 此 ， 透 过 整个 窗户 的 每 一 小 块 的 是 很 多 光线 ， 这 些 光 线 因 角度 、 色 彩 和 亮度 的 不 同 而 









































第 11 章 迈 向 “真实 的 ”3D 交互 显示 器 301 














图 11. 10 ”从 窗户 后 面 玩 具 房 子 的 不 同 点 发 射 的 光线 穿 过 窗户 
素 ” 的 过 程 。 对 于 站 在 如 图 所 示 位 置 的 观察 者 来 说 ， 这 个 像素 就 是 墙壁 的 颜色 








各 具 特 色 。 

把 显示 屏 看 作 窗 户 ， 我 们 只 考虑 物体 在 显示 屏 后 面 成 像 的 情况 。 如 前 面 所 示 ， 物 体 在 显 
示 屏 前 面 也 可 以 成 像 。 在 这 种 情况 下 ， 显 示 屏 就 不 再 是 呈现 全 光 函 数 定义 图 像 的 面板 了 。 如 
上 所 述 ， 显 示 屏 对 其 前 面 的 物体 成 像 时 ， 要 调节 显示 屏 输 出 ， 同 时 要 考虑 观察 者 与 显示 屏 的 
相对 位 置 。 

这 个 窗户 类 比 同样 也 表明 ， 在 某 些 情况 中 ， 显 示 屏 要 够 大 才 可 以 显示 逼真 的 、 棚 棚 如 生 
的 3D 图 像 。 例 如 ， 图 11. 10 中 玩具 房子 比 显 示 屏 小 得 多 。 如 果 屏 幕后 面 有 座 真 房子 ， 屏 幕 
大 小 大 概 与 房子 窗户 相等 ， 那 么 很 明显 观察 者 只 能 看 到 这 座 房子 的 很 小 一 部 分 。 

从 屏幕 与 窗户 之 间 的 类 比 中 可 以 看 出 ，3D 立体 显示 和 2D 显示 的 区 别 在 于 像素 (全 光 
函数 ) 信息 的 角度 依赖 性 。 

这 种 角度 依赖 信息 揭示 了 3D 场景 的 3 个 方面 : 

1) 物体 之 间 的 相对 运动 (物体 运动 时 眼睛 会 看 到 不 同 的 内 容 )。 

2) 立体 视觉 (每 个 眼睛 看 到 的 内 容 不 同 ) 。 

3) 焦点 (被 瞳孔 获取 的 从 拦截 的 场景 中 某 一 点 投射 的 光线 ， 其 角度 扩散 是 由 该 点 到 观 
察 者 的 距离 决定 ) 。 

除了 这 些 区 别 于 2D 显示 的 特点 外 ， 同 样 重要 的 另 一 个 特点 是 3D 立体 显示 的 分 辩 率 保 
持 很 高 一 一 接近 人 眼 的 极限 分 辨 率 一 一 因为 纹理 线索 在 感知 景深 和 图 像 的 到 真 度 上 是 很 重要 
的 。 假 如 我 们 将 “极限 ”3D 立体 显示 屏 类 比 成 上 面 描述 的 窗户 ,我们 需要 高 像素 密度 的 显 
示 屏 以 便 调 整 从 不 同 视角 方向 传 来 的 高 角度 分 辨 率 光 线 的 颜色 和 亮度 。 如 果 我 们 眼睛 接收 一 
束 旋转 了 零点 几 度 的 射线 锥 ， 我 们 就 有 充足 的 角度 分 辩 率 获得 合适 的 焦点 ， 很 有 可 能 我 们 只 
需要 0. 1 的 角度 分 辨 率 。 如 果 想 从 100° 的 视野 里 观看 窗户 ,我们 需要 每 个 像素 产生 100 万 
道光 线 ， 每 道光 线 的 颜色 和 亮度 各 不 相同 。 配 备 这 些 规格 的 3D 立体 显示 器 其 带宽 会 增加 到 
具有 同等 尺寸 和 分 辩 率 的 2D 显示 器 的 100 万 倍 ， 这 远 远 超过 现在 的 液晶 显示 技术 。 

由 于 这 种 信息 内 容 问题 ， 许 多 3D 立体 显示 系统 仅 提 供 立 体 视觉 线索 。 通 过 “裸眼 立体 
显示 ”系统 就 可 以 达到 这 个 效果 ， 显 示 器 上 每 个 像素 的 颜色 和 亮度 会 随 着 观察 角度 的 变化 
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而 变化 !9] 。 在 这 些 系 统 中 ， 信 息 的 角度 依赖 generate 要 能 让 不 同 的 视觉 内 容 进 入 人 
的 两 只 眼睛 即 可 。 但 是 这 些 系统 中 显示 还 的 空 e 

佩戴 偏光 眼镜 也 可 以 提 
供 立 体 视觉 效果 。 采 用 该 方 
法 的 系统 被 分 类 为 使 用 “ 主 
动 ” 偏 光 眼 镜 系 统 和 使 用 
“被 动 ”偏光 眼镜 系统 [201。 
SRM, “被 动 ”偏光 眼镜 具 
有 质量 轻 和 使 用 主动 快门 以 
改善 光线 明亮 度 ( 见 图 
11.11) 的 优点 。 

图 11.11 展示 了 在 光 场 
中 显示 屏 连 续 显 示 的 左 眼 和 o 显示 屏 在 背景 中 ， 偏 振 旋转 器 在 前 景 中 。 图 像 被 从 上 到 
右 眼 视野 图 像 ， 同 时 显示 屏 下 光栅 扫描 ， 从 左 眼 视 野 转 到 右 眼 视野 中 。 偏 振 旋转 器 被 设计 成 能 够 输 
实时 扫描 图 像 落 在 该 屏幕 的 出 一 种 偏振 态 光 线 ， 可 以 从 观看 者 佩戴 眼镜 的 左 镜片 传输 ， 以 及 另 一 种 
下 半 部 分 ， 抹 去 了 先前 的 右 可 以 通过 右 镜片 传输 的 偏振 态 
眼 视 野 图 像 ， 并 呈现 了 左 眼 
视野 图 像 。 与 此 同时 ， 控 制 光线 偏振 态 的 分 档 主 动 快 门 改 变 了 从 右 眼 传输 的 偏振 态 转 至 从 左 
眼 传输 的 偏振 态 的 不 同 分 档 5251 。 

如 果 显 示 屏 距离 观看 者 较 远 ， 那 么 上 述 的 第 一 条 和 第 三 条 线索 就 变 得 可 有 可 无 (比如 
在 电影 院 中 ) , 只 要 有 3D 影像 就 可 以 显示 3D 图 像 ， 但 是 这 种 简便 做 法 却 不 适用 于 距离 观看 
者 较 近 的 场景 ， 比 如 桌面 显示 屏 或 者 手机 显示 屏 上 的 画面 。 这 样 的 话 ， 相 对 运动 和 焦点 线索 
都 很 重要 , 相对 运动 效应 的 重要 性 很 容易 被 理解 ， 这 要 通过 阐述 如 果 
观看 者 正在 移动 ， 场 景 中 3D 信息 是 如 何 看 似 从 场景 中 跳出 并 映 人 观看 者 眼帘 的 。 一 段 很 棒 
人 已 经 由 Lee 制作 完成 [21 。 

考虑 相对 运动 线索 却 不 留意 焦距 线索 ， 这 会 降低 形成 立体 影像 和 平缓 运动 所 要 求 的 角度 
分 辩 率 的 要 求 。 这 样 角 度 分 辩 率 可 能 会 满足 一 个 角度 要 求 ， 也 可 以 进一步 理解 为 仅 限 于 满足 
水 平方 向 的 要 求 。 这 里 3D 立体 显示 屏 的 带宽 仅仅 为 2D 显示 屏 带 宽 的 100 倍 。 然 而 只 考虑 
单个 观看 者 并 使 用 头像 追踪 技术 的 话 ， 只 要 能 显示 两 个 画面 的 系统 就 可 以 。 

zSpace 已 经 展示 过 使 用 被 动 偏光 眼镜 和 头像 追踪 技术 的 系统 [231 ， 另 外 SuperD WET A 
动 立 体 显 示 系 统 [2] 。 这 些 系统 能 够 提供 相对 运动 和 立体 显示 线索 的 效率 很 高 。 但 是 “真正 
的 ”3D 立体 显示 却 必 须 还 要 有 焦点 线索 。 众 所 周知 ， 立 体 显示 线索 和 相对 运动 线索 对 于 真 
正 的 3D 立体 显示 意义 非凡 ， 但 是 与 之 相 比 焦点 线索 的 重要 性 却 没 那么 明显 。 

早期 研究 焦点 线索 重要 性 的 文章 是 由 nous 完成 的 ， 他 指出 当 呈 现 3D 图 像 时 ， 眼 睛 
A ee ets De E E ae 深度 。 但 事实 上 眼睛 为 了 看 清 图 像 会 聚焦 于 
图 像 源 ， 这 就 与 调节 反应 相 矛 盾 。 近 期 Shibatal21 发 表 了 一 篇 全 面 论述 关于 这 种 矛盾 产生 的 
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不 利之 处 的 文章 。 

图 11. 12 呈现 了 Shibata 的 “舒适 区 ” 5 一 | 
图 示 。 该 坐标 轴 呈 现 的 是 屈光度 ， 即 以 m 
为 单位 测量 的 焦距 的 倒数 。 我 们 假设 显示 4 














GEES WA ARK ( 聚 散 度 距 离 是 2D)， 
那么 立体 图 像 的 舒适 观看 距离 范围 为 67 ~ 
40cm (1.5D ~ 2.5D)， 或 者 屏幕 后 面 约 
17cm 和 屏幕 前 面 10cm 处 。 这 种 深度 范围 
很 有 限 ， 对 于 真正 的 互动 式 、 浸 入 式 3D 
立体 显示 的 深入 研发 仍 是 重大 问题 。 

为 解决 这 个 问题 ，Kajikil7] 和 
Takakil28] 已 经 研发 出 具有 高 角度 分 辨 率 足 
以 向 瞳孔 呈现 一 些 不 同 图 像 的 自动 立体 显 
示 系 统 ， 该 系统 可 以 产生 正确 的 聚焦 反 
应 。 图 11.13 显示 3D 物体 反射 出 分 散 的 
光线 通过 眼睛 合理 聚焦 反应 聚焦 于 视 网 
膜 上 。 
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Al 11. 12 舒适 区 位 于 标识 “ 远 ” 和 “ 近 ” 的 两 条 
线 之 间 ， 其 中 的 聚 散 度 距 离 与 焦距 相似 。 改 编 自 
T. Shibata, J. Kim, D. Hoffman, M. Banks, 2011 






























































图 11. 13 ”对 高 密度 水 平视 差 图 的 调节 。 该 图 中 显示 屏 上 呈现 给 观看 者 两 个 物体 (两 点 ) 并 
获得 该 显示 屏 的 项 视图 ， 大 约 有 25 像素 。 每 条 虚线 都 对 应 了 其 中 一 个 点 发 出 的 光线 穿 过 显示 屏 
的 每 个 像素 。 对 于 最 上 面 的 模型 眼 ， 屏 幕 底 端的 像素 会 显示 相距 最 远 的 物体 颜色 ， 然 而 将 模型 眼 
位 置 放 低 一 点 ， 就 可 以 观察 到 相距 较 近 的 物体 颜色 。 对 于 其 他 的 模型 眼 摆 放 位 置 ， 这 两 点 发 射 的 
光线 就 无 法 被 观看 底 端 像素 的 模型 眼看 到 。 距 离 显 示 屏 较 近 的 点 发 射出 的 光线 与 距离 屏幕 较 远 的 
点 发 射 的 光线 相 比 ， 由 于 两 点 在 显示 屏 后 面 的 相对 运动 而 更 加 分 散 。 这 只 模型 眼 将 距离 较 近 的 点 
发 射 的 光线 聚焦 在 视网膜 上 。 在 这 种 情况 下 ， 距 离 较 远 的 点 发 射 的 光线 就 无 法 被 聚焦 了 











































































































Takaki 进一步 说 明 瞳 孔 截 获 的 清晰 光线 的 角 分 辨 率 与 眼睛 正确 的 调节 反应 深度 范围 之 间 
的 关系 [3”] 。 上 述 方法 有 一 个 问题 在 于 ， 光 线 的 角度 扩散 限于 水 平方 向 ， 因 而 容易 造成 散光 
问题 。Kim 使 用 光 的 倾斜 光线 提出 了 解决 该 问题 的 一 个 方法 3。 图 11. 14 展示 2 条 光线 穿 
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过 一 个 倾斜 面 进 入 瞳孔 的 设想 。 网 11.15 视差 图 像 聚 合 点 (CPPD 
展示 2 条 或 4 条 光线 进入 瞳孔 的 效果 ， 而 4 AU) 1 
; s 个 wig 


焦点 落 在 3 个 不 同 物体 的 其 中 之 一 。 

使 用 集成 成 像 是 一 个 更 加 全 面 的 方 
法 ， 光 线 沿 各 个 角度 发 散 。 近 期 Xiao 
就 对 该 方法 进行 了 综述 。 图 11. 16 显示 了 
该 系统 中 的 聚焦 效果 。 


、 倾斜 角度 :6 
我 IL ; fe EY 5 
们 看 到 以 上 方法 包括 焦点 线索 要 求 11. 14 SPP SE BE He RO SER IE EA 
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MUZ WHE AS. E pee 六 有 此 
wake rite 孔 。 来 源 : S-K Kim, S -HKim, D - W Kim 2011, 经 
加 的 信息 使 得 显 示 屏 的 带宽 得 非常 rts 高 > SPIE 4 F 转 载 














正如 前 面 所 述 。 

因此 若 要 限制 显示 屏 的 带宽 要 求 ， 我 们 的 窗口 要 更 加 智能 化 ， 以 便 将 光线 只 传输 至 观看 
者 眼中 而 不 将 光线 四 处 发 散 。 眼 睛 追踪 系统 可 以 确定 观看 者 眼睛 的 位 置 ， 显 示 屏 的 每 个 像素 
到 时 只 需要 将 特定 颜色 和 亮度 的 光线 按照 一 定 的 角度 穿 过 像素 进入 观看 者 眼睛 里 ( 见 图 
11.13) 。 例 如 ， 如 果 需 要 3 条 光线 进入 双眼 瞳孔 中 才能 合理 成 像 那么 6 个 视 域 系统 才 
足够 。 
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图 11.15 对 比 两 种 情况 下 的 散 焦 效果 ， 使 用 从 相同 的 几 个 点 (上 一 排 ) 发 散 的 4 条 光线 和 从 相 
同 的 几 个 点 (下 一 排 ) 发 散 的 2 条 光线 分 别 对 物体 在 0. 25m 处 聚焦 呈现 a) 和 d) ， 在 0. 6m 处 聚焦 呈 
现 b) Fle), 在 1.8m 处 聚焦 呈现 c) Alf), KV; S-K Kim, S-HKim,D-WKm2011。 经 SPIE fù 
许 转载 

















使 用 头像 追踪 技术 以 保证 进入 观看 者 眼睛 中 的 光线 呈现 高 角度 分 辨 率 ， 同 时 保持 相对 较 
高 的 图 像 分 辨 率 ， 这 种 自动 立体 显示 系统 已 经 由 Nakamura 等 人 研发 出 来 !?1。 另 外 有 人 提出 
了 将 镜头 阵列 摆 放 在 显示 屏 前 面 的 方法 !3] 。 与 将 光线 发 散 至 每 只 眼睛 瞳孔 中 的 想法 相关 的 
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图 11.16 计算 机 重建 集成 成 像 系统 的 聚焦 效果 。 左 图 中 较 近 的 小 汽车 是 焦点 ， 右 图 中 较 远 的 卡车 是 焦点 。 
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KVR: X. Xiao, B. Javidi, M. Martinex - Corral, A. Stern 2013。 经 美国 光学 学 会 (OSA) 允许 转载 





是 像 全 息 图 一 样 提供 非 平面 的 波 阵 面 。 然 而 实 
现 这 种 多 观看 者 显示 中 存在 的 带宽 和 技术 问题 
令 使 用 这 种 显示 技术 的 高 分 辩 率 视频 设备 无 法 
运行 。Reichelt 等 人 的 著作 中 有 一 章 清楚 地 病 
明了 这 些 问 题 ， 并 提出 了 将 全 息 信 息 只 呈现 给 
观看 者 观看 范围 内 的 解决 方法 ， 如 图 11.17 









































所 示 L341。 

尽管 上 述 方法 从 概念 上 讲 极 具 吸 引力 ,但 
实现 满意 的 图 像 分 辨 率 和 进入 眼睛 中 充足 光线 图 11.17 ”用 于 降低 信息 和 衍射 角度 要 求 的 方 
以 产生 焦点 线索 却 不 容易 。 解 决 调节 辐 较 问题 法 ， 其 中 全 息 图 像 信息 仅仅 发 送 至 观看 者 眼睛 里 。 











的 男 一 种 方法 是 在 显示 屏 与 观看 者 之 间 增 加 一 来 源 : S. Reichelt, R. Haussler, N. Leister, G. 
个 镜头 。Yanagisawa 基于 具有 可 调节 焦距 镜头 Futterer, H. Stolle, A. Schwerdtner 2010。 经 SeeRe- 
的 显示 器 开发 并 分 析出 一 种 原型 系统 [55] 。 这 al 技术 公司 允许 转载 
些 概 念 已 经 被 Shibata 进行 了 详细 研究 136] 。 

这 些 思考 集合 了 立体 显示 和 分 光 显 示 的 优点 以 解决 焦点 问题 。 立 体 显 示 的 优点 在 于 自然 
地 刻画 焦点 ， 缺 点 是 无 法 合理 地 处 理 隐 藏 的 图 像 ， 这 种 系统 的 带宽 与 深度 平面 的 数量 成 正 
LK. Love 提出 了 一 种 系统 ， 系 统 中 平面 分 光 显 示 屏 前 面 放置 了 一 片 镜片 ， 以 便 为 显示 的 立 
体 图 像 提供 光 场 顺序 聚焦 平面 ， 如 图 11. 18 中 所 示 。 光 场 顺 序 方法 要 求 刷新 率 与 焦点 深度 
平面 的 数量 相 乘 。 但 是 ， 对 于 典型 立体 显示 来 说 这 并 不 是 大 问题 ， 因 为 对 于 可 接受 的 显示 来 
说 焦点 平面 的 数量 或 许 不 会 太 多 。 由 于 处 在 真正 的 立体 显示 中 眼睛 能 够 聚焦 的 深度 平面 数量 
不 会 受 限 。 

Bos 提出 了 解决 调节 问题 的 另 一 种 方法 ， 即 使 用 者 佩戴 可 固定 的 对 焦距 镜片 〈 如 双 倍 焦 
距 或 渐进 镜片 ) 388] 。 使 用 多 焦距 镜片 可 以 使 佩戴 考 的 眼睛 焦距 与 3D 物体 的 目标 位 置 相 协 
调 ， 同 时 佩戴 矫正 镜片 的 使 用 者 眼睛 焦距 可 让 图像 在 视网膜 上 聚焦 。 该 方法 实际 应 用 于 利用 
眼睛 追踪 技术 测量 使 用 者 眼睛 的 内 束 以 决定 观看 者 目 视 深度 ， 同 时 根据 观看 者 与 显示 屏 之 间 
的 距离 来 调节 观看 者 佩戴 的 电子 镜片 的 功率 。 

第 8 章 中 Drewes 讲 过 眼睛 凝视 追踪 技术 的 不 断 发 展 引 入 了 低 成 本 的 眼睛 追踪 系统 ， 可 
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以 运用 于 这 种 应 用 中 。 该 方法 胜 于 其 他 方法 之 处 在 于 不 管 是 显示 系统 ， 还 是 传统 的 立体 显示 
器 都 不 需要 额外 带宽 或 者 牺牲 图 像 分 辨 率 。 具 体 来 讲 ， 我 们 可 以 想 一 下 具有 如 上 描述 的 头像 
追踪 技术 的 “被 动 偏光 镜 ” 分 光 系 统 。 图 11. 19 体现 了 该 系统 原理 '3] 。 
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图 11. 18 左边 的 多 焦距 镜片 ， 以 及 右边 的 模型 眼 、 镜 片 和 显示 屏 概况 。 左 边 的 4 个 聚焦 位 置 对 应 
右边 的 4 个 深度 平面 [7]。 来 源 : G. Love, D. Hoffman, P. Hands, J. Gao, A. Kirby, M. Banks 2009。 经 
美国 光学 学 会 允许 转载 























通过 对 矫正 镜片 合理 调 焦 ， 我 们 可 以 使 眼睛 的 焦 度 与 会 聚 平面 聚焦 一 致 ， 同 时 可 以 使 显 
示 平 面 上 的 图 像 聚 焦 于 视网膜 上 。 
如 上 所 述 ， 观 察 观 看 者 瞳孔 的 “内 东 ” 能 使 计算 机 找到 眼睛 的 会 聚 点 ， 并 因此 得 出 观 
看 者 与 所 观看 的 3D 场景 中 物体 之 间 的 距离 。 结 合 观看 者 与 显示 屏 之 间 的 距离 信息 ， 我 们 就 
可 以 确定 矫正 镜片 所 需 的 焦 度 。 假 设 眼睛 镜片 与 平面 之 间 的 距离 为 “dp”， 与 会 聚 点 之 间 的 
距离 为 “de”, 与 视网膜 之 间 的 距离 为 “dr”， 那 么 眼睛 镜片 的 角度 为 
Pe=1/dr+1/dc (11.1) 
这 样 眼睛 镜片 就 会 聚焦 于 会 聚 平面 。 但 是 对 于 实际 聚焦 于 视网膜 上 的 图 像 ， 我 们 还 需要 
电子 透镜 的 焦 度 “PI”， 计 算 如 下 : 





























Pe + Pl = 1/dr + 1/dp (11.2) 
这 就 得 出 

Pl =1/dp - 1/dc (11.3) 
图 11. 19 中 焦 度 为 - 0.5 屈光度 。 适 用 于 该 系统 的 电 控 透 镜 已 出 现 [%] 。 
图 11. 20 是 一 个 直径 约 1em 的 透镜 图 。 该 电 控 透镜 调节 物体 焦点 的 功能 可 以 从 网 11. 21 
中 看 出 ， 如 图 11. 21 所 示 ， 假 设 我 们 的 眼睛 可 以 调节 至 50cm 的 距离 ， 那么 实物 与 透镜 之 间 
的 距离 可 以 为 40 ~60cm。 这 就 表明 如 果 显 示 屏 与 实物 之 间 的 距离 固定 为 50cm， 那 么 使 用 电 
子 透镜 可 以 使 眼睛 重新 肾 焦 达到 显示 屏 距 离 眼 睛 40 ~60cm 的 聚焦 效果 。 

这 种 简易 系统 对 于 实现 3D 分 光 显 示 系 统 非常 实用 ， 可 以 降低 调节 与 会 聚 之 间 的 矛盾 ， 
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图 11. 19 利用 靠近 眼睛 的 可 微调 透镜 可 以 将 凝视 调节 至 会 聚 点 ， 同 时 眼睛 聚焦 功能 结合 
可 微调 透镜 就 可 以 使 显示 屏 上 的 信息 聚焦 于 视网膜 上 。 来 源 : Source; P. J. Bos and A. K. 
Bhowmik 2010。 经 SIDZWiley 允许 转载 























图 11.20 可 微调 液晶 透镜 与 图 11. 19 中 使 用 的 透镜 相似 











因而 缓解 眼 疲 劳 。 但 我 们 要 清楚 这 种 基于 矫正 镜 的 方法 不 过 是 一 种 “临时 办 法 ”， 这 与 高 分 
辩 率 超级 多 视角 、 集 成 成 像 设 备 See - Real 提出 的 全 息 方法 或 者 Love 提出 的 立体 显示 概念 
等 更 加 自然 的 方法 不 同 。 比 如 ， 这 种 方法 虽然 解决 了 调节 辐 连 比例 失调 问题 ， 但 其 效果 是 使 
整个 显示 屏 聚 焦 在 被 观察 图 像 某 一 特定 方面 的 深度 。 人 为 地 模糊 那些 没有 聚焦 在 被 观察 物 深 
度 的 图 像 可 以 组 和 这 种 问题 。 
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偏光 器 “本 
LC 透镜 ， 
广 50cm 
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图 11.21 下 图 的 3 张 照片 是 通过 拍摄 上 图 中 所 设 的 儿 组 场景 得 到 的 ， 通 过 对 可 微调 透镜 施 以 3 种 不 
同 的 电压 以 提供 透镜 如 图 所 示 的 不 同 焦 度 


LC 透镜 
无 电 















































11.5 与 3D 显示 屏 上 的 视觉 内 容 交 互 


在 前 面 各 章 中 ， 我 们 讨论 了 3D 视觉 原理 、3D 视觉 信息 捕捉 和 向 用 户 传达 珊 真 视觉 体验 
的 “真实 的 ”3D 显示 器 的 要 求 。 之 后 我 们 回顾 了 为 达到 这 些 目标 而 做 出 的 技术 进步 。 本 节 
内 容 会 讨论 人 机 信息 输入 以 及 与 系统 中 的 显示 内 容 进行 的 交互 活动 。 

从 3D 显示 系统 的 发 展 历史 来 看 ， 这 些 系 统 都 集中 于 一 种 基本 应 用 一 向 用 户 呈现 3D 
图 像 或 者 视频 以 产生 深度 感知 。 近 年 来 ， 显 示 器 中 迅速 增加 了 触觉 感知 功能 ， 尤 其 是 在 移动 
通信 和 娱乐 设备 上 ， 因 此 这 些 显示 屏 就 成 为 了 主要 的 人 机 交互 界面 。 此 外 ， 实 时 3D 成 像 技 
术 和 计算 机 视觉 技术 的 进步 逐渐 实现 了 显示 屏 前 的 3D 空间 中 的 用 户 交互 141 。 这 些 技术 发 
展 使 得 人 们 在 3D 环境 中 直接 并 直观 地 操控 实物 成 为 可 能 ， 引 发 了 人 机 交互 中 革命 性 的 变 
化 。 一 系列 实证 研究 表明 ,置身 于 3D 空间 的 用 户 面 对 3D 图 像 旦 现时 ， 他 们 的 自然 反应 是 
伸 出 手指 与 图 像 交 互 !*1 。 由 于 我 们 在 日 常生 活 中 习惯 了 与 真实 世界 的 触 磁 交 互 ， 这 种 反应 
是 意料 之 中 的 。 

正如 在 本 章 中 前 几 节 的 讨论 , “真实 的 ”3D 显示 不 能 仅 局 限于 呈现 所 展示 场景 中 图 像 
的 立体 像 对 (立体 显 像 线索 ) ， 它 还 要 提供 与 用 户 的 头 部 和 眼睛 运动 相 一 致 的 连续 变化 的 图 
像 (运动 视差 线索 ) 。 此 外 ， 聚 焦 于 观察 对 象 的 双眼 的 会 聚 必须 要 与 双眼 中 晶状体 的 焦点 一 
臻 (焦点 线索 ) 。 这 些 要 求 对 实现 真实 的 3D 视觉 体验 很 重要 ， 但 是 对 于 交互 应 用 程序 来 说 
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更 加 关键 ， 它 们 促成 了 用 户 利用 双手 或 手指 等 真实 的 身体 部 位 去 触 磁 3D 空间 的 虚拟 物象 。 

与 真实 的 身体 部 位 进行 交互 的 3D 空间 虚拟 物象 一 一 如 用 手指 “ 触 磁 ” 或 用 双手 “ 抓 
握 ”， 仅 限于 对 负 视 差 虚拟 出 的 物象 ， 因 此 它们 是 浮现 在 用 户 和 显示 屏 表 面 之 间 的 。 但 是 正 
视差 虚拟 出 的 物象 由 于 浮现 在 显示 板 后 面 的 虚拟 空间 ， 与 其 进行 相似 的 直接 3D 交互 是 无 法 
实现 的 ， 因 为 用 户 无 法 穿 过 实体 显示 屏 表 面 ， 无 法 触 碰 受到 阻挡 的 物象 。 所 以 在 这 些 虚 拟 环 
境 中 与 物象 交互 就 要 求 使 用 虚拟 出 的 肢体 部 位 ， 比 如 在 虚拟 环境 中 虚拟 出 手 ， 并 利用 对 用 户 
真实 的 手 进行 动态 捕 提 得 到 的 运动 对 其 驱动 。 

我 们 分 析 一 下 虚拟 物象 浮现 在 用 户 和 显示 屏 表 面 之 间 的 负 视 差 案例 。 尽 管 负 视差 可 以 通 
过 提供 立体 显 像 线索 实现 与 虚拟 物体 的 真实 交互 ， 但 是 由 于 用 户 与 显示 内 容 之 间 的 距离 很 
近 ， 交 互 中 愈加 重要 的 因素 是 运动 视差 和 焦点 线索 。 当 用 户 伸 出 手 去 抓 取 该 空间 中 浮现 的 虚 
体 物 体 时 ， 他 们 的 虚拟 系统 就 得 同时 观察 虚拟 物体 和 真实 的 手 。 此 时 用 户头 部 和 眼睛 是 运动 
的 ， 但 是 视网膜 上 对 于 所 展示 物体 的 成 像 却 是 固定 ， 在 这 些 情况 中 缺少 运动 视差 线索 就 会 引 
发 混乱 和 不 适 ， 因 为 真实 的 手 很 明显 会 在 视网膜 上 形成 与 用 户 手 的 运动 一 致 的 连续 变化 的 画 
面 。 同 理 ， 缺 少 焦点 线索 也 会 产生 非常 明显 的 辐 转调 节 率 乱 问 题 ， 所 以 不 管 是 物体 还 是 手指 
都 会 显示 很 模糊 ， 所 以 两 者 都 无 法 同时 聚焦 成 像 。 既 然 我 们 的 视觉 系统 会 使 用 这 些 视觉 线索 
来 理解 现实 世界 并 引导 我 们 的 交互 活动 ， 那 么 当 我 们 面 对 着 3D 显示 屏 上 显示 的 内 容 并 与 之 
进行 交互 时 ， 缺 少 这 些 线索 引起 的 视觉 冲突 就 会 影响 我 们 的 行为 。 若 要 解决 该 问题 就 得 避免 
将 真实 物体 和 虚拟 物体 同时 展现 在 视野 中 ， 并 使 用 虚拟 出 来 的 相同 的 手 与 虚 体 物体 进行 
交互 。 

视觉 冲突 对 用 户 行为 的 影响 以 及 上 述 方法 的 有 效 性 已 经 由 Bruder 等 人 根据 费 蒋 法则 
(Fitts Law) 实验 进行 了 评估 i 。 图 11. 22 对 这 些 实验 以 及 Bruder 实验 得 出 的 重要 结果 进 
行 了 阐述 。 有 趣 的 是 ， 根 据 人 们 的 直觉 显示 ， 与 3D 显示 虚拟 的 物体 使 用 真实 的 双手 进行 交 
互 时 是 非常 有 效 的 ， 与 之 相 比 ， 使 用 虚拟 的 双手 与 相同 环境 中 的 虚拟 物体 交互 时 则 会 犯 很 多 


错误 。 











































































































图 11.22 在 立体 显示 物体 的 3D 选择 过 程 中 出 现 的 视觉 冲突 : a) 用 户 聚 焦 于 她 的 手指 上 ， 虚 拟 物 
体 显 得 很 模糊 。b) 在 与 真实 的 指 尖 相距 固定 距离 的 地 方 放置 一 个 虚拟 偏 移 光标 (白色 标识 处 ) 就 可 以 
减缓 虚拟 冲突 。c) 虚拟 偏 移 手 标识 为 用 户 选 择 图 像 提 供 她 熟悉 的 和 附加 的 尺寸 和 距离 线索 。 来源: 
Bruder, Steinicke, Stuerzlinger 2013, ERZA IEEE 许可 
































除了 上 述 的 3D 视觉 线索 外 ， 利 用 3D 虚拟 显示 技术 实现 实时 交互 应 用 还 有 其 他 对 于 人 
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为 因素 方面 的 要 求 。 这 些 要 求 包括 用 户 的 快速 响应 ， 这 样 ， 用 户 行为 和 引发 的 系统 响应 之 间 
就 不 会 有 可 感知 的 延迟 或 济 后 ， 后 者 将 影响 视觉 内 容 上 的 变化 。 

4 Viola BAWIE T h F AR Ai J te WG) S T A A e E VY BY) AN B 
应 [4 o Stuerzlinger 等 人 提出 限制 用 户 在 虚拟 环境 中 的 交互 自由 度 以 减少 失败 或 不 协调 的 体 
BAS] 。 另 外 ， 虚 拟 显示 器 和 人 机 信息 输入 的 实时 图 像 捕捉 设备 的 视野 也 是 确保 良好 用 户 体 
验 的 关键 因素 。 例如 ， 用 户 与 配备 了 3D 姿势 输入 功能 的 3D aes 如 果 因 为 
3D 成 像 设 备 的 视角 有 限 而 将 用 户 的 交互 活动 限制 在 小 范围 内 ， 这 将 会 是 一 次 令 人 失望 的 
体验 。 

针对 系统 和 设备 的 交互 功能 而 设计 的 用 户 界 面 融 合 了 3D 虚拟 显示 和 3D 用 户 信息 输入 
技术 ,除了 要 考虑 上 述 技术 或 系统 的 局 限 性 ， 还 要 仔细 思考 我 们 与 现实 世界 的 交互 中 人 为 因 
素 的 影响 。 例 如， 不 同 于 传统 的 具有 人 触 屏 感 知 合 加 功能 的 2D 显示 ， 当 触摸 显示 屏 前 面 的 虚 
拟 物体 时 ， 这 类 交互 不 会 产生 触觉 反馈 。 因 此 ， 用 户 界 面 设计 需 采 用 其 他 方法 来 向 用 户 提供 
实时 反馈 ， 比 如 在 具体 的 应 用 场景 中 合理 设计 的 视听 线索 和 交互 的 程度 、 范 围 。 比 如 ， 挤 压 
一 个 虚拟 气球 就 会 导致 气球 产生 合理 的 变形 ， 这 是 通过 气球 形状 和 颜色 的 变化 传达 出 的 ， 该 
气球 变化 应 该 与 用 手指 运动 施加 在 气球 上 的 力 是 一 致 的 。 

此 外 ， 帮 能 利用 好 听觉 线索 也 可 以 产生 通 真 的 交互 效果 ， 比 如 在 挤 压 变 形 的 气球 时 发 出 
的 咬 咬 声 是 与 挤 压 动作 力度 成 正比 的 。 与 之 相似 ， 当 交互 活动 范围 达到 视角 上 限时 ， 精 心 设 
计 的 视听 线索 可 以 为 用 户 提供 指导 。 

除了 基于 视觉 的 3D 姿势 交互 之 外 ,， 像 第 3 章 Breen 等 人 将 声音 理解 为 一 Aad de 
及 第 8 F Drewes 描述 的 眼 动 追踪 技术 和 交互 等 多 种 形式 的 用 户 界 面 ， 可 以 使 用 户 与 显示 
a 
活动 变 得 简单 、 直 观 的 讨论 详 见 LaViola 等 人 撰写 的 多 模 态 界面 章节 (第 9 章 ) 。 




















































































































11.6 结语 








当 我 们 使 用 全 部 感觉 与 认 知 去 体验 现实 世界 时 ， 视 觉 扮 演 着 最 重要 的 角色 。 虚 拟 显 示 器 
en hi 

、 平板 电脑 或 手提 电脑 等 中 型 显示 涡 ， 再 到 电视 机 或 信息 咨询 台 等 大 型 显示 器 。 虚 拟 显 示 
e a 其 亮度 、 对 比 度 、 速 度 和 色彩 性 能 等 视觉 质量 得 到 了 明显 改善 。 此 
外 ， 能 够 向 观看 者 播放 具有 立体 显示 线索 的 虚拟 内 容 的 立体 显示 器 已 经 进入 主流 市 场 。 但 
是 ， 能 够 提供 双 真 的 淄 入 式 虚 拟 体 验 的 “真实 的 ”3D 显示 技术 还 需 提 供 运 动 视差 和 焦点 线 
索 。 在 本 章 中 ， 我 们 讨论 了 人 类 视觉 和 3D 立体 视觉 的 基本 原理 表达 “真实 的 ”3D 立体 显 
示 要 求 ， 同 时 回顾 了 实现 这 些 系统 和 发 展 状 态 的 技术 要 求 。 

近年 来 ， 显 示 屏 变 得 极 具 交互 性 。 通 过 增加 触 屏 感知 层 和 相关 的 用 户 界面 ， 手 机 显示 屏 
已 经 成 为 移动 设备 中 普遍 应 用 的 人 机 界面 系统 。 正 如 触 控 技术 章节 的 描述 ， 基 于 触 碰 的 用 户 
界面 继续 被 快速 应 用 于 广泛 的 设备 和 系统 中 。 接 下 来 的 章节 中 论述 了 基于 视听 的 人 机 界面 的 
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发 展 。 语 音 识别 算法 、3D 立体 成 像 和 交互 以 及 眼 动 追踪 技术 的 进步 为 实现 用 户 与 虚拟 显示 
内 容 的 交互 发 生 革 命 性 变化 商定 了 基础 。 将 这 些 新 的 人 机 界面 和 交互 技术 添加 到 可 以 呈现 
“真实 的 ”3D 立体 虚拟 内 容 的 显示 器 中 ， 并 配 以 设计 合理 的 多 模 态 用 户 界 面体 系 ， 这 样 就 
有 望 在 显示 屏 前 的 3D 立体 空间 中 为 用 户 带 来 公 真 的 交互 体验 。 

很 明显 “交互 式 显示 ”时 代 已 经 到 来 。 在 接 下 来 的 几 年 至 几 十 年 ， 我 们 期 望 看 到 交互 
式 显示 进一步 发 展 并 应 用 于 更 广泛 的 设备 和 系统 中 。 这 的 确 是 需要 深入 探究 发 展 的 新 领域 ， 
但 该 领域 却 拥 有 带 来 令 人 振奋 的 新 型 交互 应 用 和 用 户 体 验 的 巨大 潜力 。 



















































































参考 文献 


1. Watson, A.B., Ahumada, A.J., Farrell, J.E. (1986). Window of visibility: psychophysical theory of fidelity in 
lime-sampled visual motion displays. J. Opt. Soc. Am 3, 300-307. 
2. Adams, A. (1948). Camera and Lens: The Creative Approach. ISBN 0-8212-0716-4. 
Adams, A. (1950). The Print: Contact Printing and Enlarging. ISBN 0-8212-0718-0. http://en. wikipedia.org 
/wiki/O_Brother,_Where_Art_Thou%3F#cite_nole-CGS-7. 
3. Shibata, T., Kim, J., Hoffman, D.M., Banks, M.S. (2011). The zone of comfort: Predicting visual discomfort with 
stereo displays. J. Vis. 11(8), 11, 1-29. 
Banks, M.S., Akeley, K., Hoffman, D.M., Girshick, A.R. (2008). Consequences of incorrect focus cues in stereo 
displays. Information Display 7/8, 10—14. 
4. Needham, J. (1986). Science and Civilization in China: Volume 4, Physics and Physical Technology, Part 1, 
Physics. Caves Books, Ltd, Taipei. 
Richter, J.P. (ed.) (1970). Aristotle, Problems, Book XV. The notebooks of Leonardo da Vinci. Dover, New York. 
5. Land, M.F., Nilsson, D.-E. (2001). Animal Eyes. Oxford University Press. ISBN 0-19-850968-5. 
6. Faraday, M. (1846). Thoughts on Ray Vibrations. Philosophical Magazine S.3, Vol XXVIII, N188. 
7. Gershun, A. (1936). The Light Field. Moscow. Translated by Moon, P and Timoshenko G. in Journal of Mathe- 
matics and Physics 1939 XVIII, 51-151. 
8. Adelson, E.H., Bergen, J.R. (1991). The plenoptic function and the clements of carly vision, In Landy, M., 
Movshon, J.A. (eds.) Computation Models of Visual Processing, 3—20. MIT Press, Cambridge. 
9. Gibson, J.J. (1966). The Senses Considered as Perceptual Systems. Houghton Mifflin, Boston. ISBN 
0-313-23961-4. 
Gibson, J.J. (1977). The Theory of Affordances (pp. 67-82). In Shaw, R., Bransford, J. (Eds.). Perceiving, Acting, 
and Knowing: Toward an Ecological Psychology. Lawrence Erlbaum, Hillsdale, NJ. 
10. Dawkins, R. (2006). The Selfish Gene: 30th Anniversary Edition. Oxford University Press. ISBN 0-19-9291 14-4. 
11. Held, R.T., Cooper, E.A., Banks, M.S. (2012). Blur and Disparity Are Complementary Cues to Depth. Current 
Biology 22, 1-6. 
Held, R.T., Cooper, E.A., O’Brien, J.F., Banks, M.S. (2010). Using blur to affect perceived distance and size. 
ACM Transactions on Graphics 29, 1—16. 
12. Lippmann, G. (1908). Epreuves reversible donnant la sensation du relief. J. de Physique 7, 821-825. 
Ives, H.E. (1930). Parallax panoramagrams made possible with a large diameter lens. JOSA 20, 332-342. 
13. Adelson, T., Wang, J-Y.A. (1992). Single lens stereo with a plenoptic camera. IEEE Transactions on Pattern 
Analysis and Machine Intelligence 14(2), 99-106. 
14. Ng, R., Levoy, M., Brédif, M., Duval, G., Horowitz, M., Hanrahan, P. (2005). Light Field Photography with a 
Hand-held Plenoptic Camera. Stanford Tech Report CTSR 2005-02. 
15. www.lytro.com, www.raytrix.de 
16. Xiao, X., Javidi, B., Martinez-Corral, M., Stern, A. (2013). Advances in three-dimensional integral imaging: 
sensing, display, and applications. Appl. Optics 52(4), 546-560. 
17. van Nes, F.L., Bouman, M.A. (1967). Spatial Modulation Transfer in the Human Eye. JOSA 57(3), 401-406. 
18. Hoffman, D.M., Darasev, V.L, Banks, M.S. (2011). Temporal presentation protocols in stereoscopic displays: 
Flicker visibility, perceived motion, and perceived depth. JSID 19(3), 255-281. 


312 


33. 


34. 


2 


36. 


41. 


42. 


44. 
45. 


RASA: 人 工 智能 下 的 人 机 交互 技术 


将 


. Dodgson, N. (2005). Autostereoscopic 3D displays. Computer 31(August). 
. Kim, J.H. (2010). Evolving Technologies for LCD Based 3-D Entertainment. Information Display 9, 8. 
. Bos, P.J. (1993). Stereo Computer Graphics and Other True 3D Technologies, Chapter 6. McAllister D. (Ed.). 


Princeton University Press. 


. Lee, J. (2007). Head Tracking for Desktop VR Displays using the Wii Remote. http://www.youtube.com 


/watch?v=Jd3-eiid-Uw 


. http://zspace.com/ 
. http://www.superd3d.com/ 
. Inoue, T., Ohzu, H. (1997). Accomodative responses to stereoscopic three-dimentional display. Applied Optics 


36, 4509. 


. Shibata, T., Kim, J., Hoffman, D., Banks, M. (2011). The zone of comfort: Predicting visual discomfort with 


stereo displays. Journal of Vision 11, 1. 


. Kajiki, T., Yoshikawa, H., Honda, T. (1996). Ocular Accommodation by Super Multi-View stereogram and 


45-view Stereoscopic Display. Proceedings for the third international display workshops (IDW’96), 2, 489. 


. Takaki, Y. (2002). Universal Stereoscopic Display using 64 LCDs. Proc. 2nd International Meeting of Information 


Display, 289, Daegu, Korea. 


. Takaki, Y., Kikuta, K. (2006). 3D Images with Enhanced DOF produced by 128-Directional Display. Proc. IDW 


06, 1909. 


. Kim, S.-K., Kim, S.-H., Kim, D.-W. (2011). Full parallax multifocus threc-dimensional display using a slanted 


light source array. Optical Engineering 50, 114001. 


. Xiao, X., Javidi, B., Martinex-Corral, M., Stern, A. (2013). Advances in three dimensional integral imaging: 


sensing, display, and applications. Applied Optics 52, 546. 


. Nakamura, J., Takahashi, T., Chen, C.-W., Huang, Y.-P., Takaki, Y. (2012). Analysis of longitudinal viewing 


freedom of reduced-view super mulli-view display and increased longitudinal viewing freedom using cyc-tracking 
technique. Journal of the SID 20, 228. 

Hong, Q., Wu, T., Lu, R., Wu, S.-T. (2007). Reduced Aberration Tunable Focus Liquid Crystal Lenses for 3D 
displays. SID Symposium Digest 38, 496. 

Reichelt, S., Haussler, R., Leister, N., Futterer, G., Stolle, H., Schwerdtner, A. (2010). Holographic 3D dis- 
plays — Electro-holography with the Grasp of Commercialization. In Costa, N., Cartaxo, A. (eds). Advances 
in Lasers and Electro Optics, Chapter 29. INTECH. 

Yanagisawa, N. et al. (1995). A focus distance controlled 3D television. The journal of three dimensional images 
9, 14. 

Shibata, T., Kawai, T., Ohta, K., Otsuki, M., Miyake, N., Yoshihara, Y., Iwasaki, T. (2005). Stereoscopic 3D 
display with optical correction for the reduction of the discrepancy between accommodation and convergence. 
JSID 13, 665. 


. Love, G., Hoffman, D., Hands, P., Gao, J., Kirby, A., Banks, M. (2009). High speed switchable lens cnables the 


development of a volumetric stereoscopic display. Optics Express 17, 15716. 


. Bos, K. (1998). Reducing the accommodation and convergence difference in stereoscopic three-dimensional dis- 


plays by using correction lenses. Optical Engineering 37, 1078. 


. Bos, P.J., Bhowmik, A.K. (2011). Liquid-Crystal Technology Advances toward Future True 3-D Flat-Panel Dis- 


plays. Inf: Display 27, 6. 


. Li, L., Bryant, D., van Heugten, T., Duston, D., Bos, P. (2013). Near-diffraction limited tunable liquid crystal lens 


with simplified design. Optical Engineering 52, 035007-1. 

Li, L., Bryant, D., van Heugten, T., Bos, P. (2013). Physical limitations and fundamental [actors affecting perfor- 
mance of liquid crystal tunable lenses with concentric electrode rings. Applied Optics 52, 1978. 

Li, L., Bryant, D., van Heugten, T., Bos, P. (2013). Near Diffraction limited and low haze electrooptical tunable 
liquid crystal lens with floating electrodes. Optics Express 21, 8371. 

Bhowmik, A.K. (2013). Natural and Intuitive User Interfaces with Perceptual Computing Technologies. Inf. Dis- 
play 29, 6. 

Grossman, T., Wigdor, D., Balakrishnan, R. (2004). Multi-finger gestural interaction with 3D volumetric displays. 
Proceedings of the 17th annual ACM symposium on User interface software and technology, 61-70. 


. Bruder, G., Steinicke, F., Stuerzlinger, W. (2013). Effects of Visual Conflicts on 3D Selection Task Performance 


in Stercoscopic Display Environments. Proceedings of IEEE Symposium on 3D User Interfaces (3DUD. IEEE 
Press. 

La Viola, J. (2000). A discussion of cybersickness in virtual environments. SIGCHI Bulletin 32, 47-56. 
Stuerzlinger, W., Wingrave, C.A. (2011). The Value of Constraints for 3D User Interfaces. In Brunnett, G., Coquil- 
lart, S., Welch, G. (eds). Virtual Realities, 203-223. 


附录 


缩 略 语 



























































































































































































































































2D 二 维 DET 检测 误差 权衡 
3D 三 维 DFP 数字 条 纹 投 射 
AAM 主动 外 观 模型 DLP 数字 光 处 理 
AD 绝对 差异 DMD 数字 微 镜 装 置 
ADC 模 - 数 转换 央 DMR 数字 多 点 电阻 
AEC 动 回音 消除 DNN 深度 神经 网 络 
AFE 模拟 前 端 DP 动态 规划 
AG 防 炫 光 DRS 语 篇 表述 法 结构 
AI 人 工 智能 DRT 语 篇 表述 理论 
AiO 一 体式 DSI 视差 空间 图 像 
AM 声学 模型 DSP 数字 信和 号 处 理 器 
AMOLED 主动 矩阵 有 机 发 光 二 极 管 DST 色散 信号 技术 
AMR 模拟 多 点 触 控 电阻 DTW 动态 时 间 规 整 
AMN 人 工 神经 网 络 DWT 数码 波导 触 控 
APR 声学 脉冲 识别 ECS 眼 接触 传感器 
ASIC 专用 集成 电路 EEG 脑 电 图 
ASR 4 动 语音 识别 EER 等 错误 率 
ASTM 美国 材料 试验 学 会 EM 电磁 
ASW 自 适应 支持 权重 EMG 肌 电 图 
ATM 自动 柜员 机 EMI 电磁 干扰 
ATO 氧化 锡 镜 EMMA 可 拓展 多 模 态 注释 标记 语言 
BCI (人 脑 和 计算 机 ) 脑 机 接口 EOG 眼 电 图 
BE 后 端 EPD 电子 纸 显 示 屏 
BOM 材料 清单 ETRA 眼 动 跟踪 研究 和 应 用 
CAD 计算 机 辅助 设计 FE 前 端 
CAT 集群 适应 性 训练 FOV 视 场 
CCD HE Aap A te EE FPC 挠 性 印 制 电路 
CERN 欧洲 核子 研究 组 织 FPGA 现场 可 编程 门 阵列 
CMOS 互补 金属 氧化 物 半导体 FSM 有 限 状态 机 
COGAIN 视线 交互 通信 FST 有 限 状 态 转换 器 
CPU 中 央 处 理 器 FTIR 受 抑 全 内 反射 
CRF 条 件 随 机 场 G2P 字 素 到 音素 
CRT 阴极 射线 管 GLMM 广义 线性 混合 模型 
CT 计算 机 X 射线 断层 扫描 GMM 高 斯 混合 模型 





























































































































































































































































































































































































































314 ”实感 交互 : 人 工 智 能 下 的 人 机 交互 技术 
( 续 ) 
GPS 全 球 定位 系统 NL 自然 语言 
GPU 图 形 处 理 器 NLG 自然 语言 生成 
GSI 手势 和 语音 基础 结构 NLMS 归 一 化 最 小 均 方差 
GUI 图 形 用 户 界 面 NLU 自然 语言 理解 
HCI (人 与 电脑 ) 人 脑 交 互 NRE 一 次 性 工程 费 
HLDA 异 方差 线性 判别 分 析 OCA 光学 透明 黏合 剂 
HMI (人 与 机 器 ) 人 机 界面 ODM 原始 设计 制造 商 
HMM 隐 马 尔 可 夫 模 型 OEM 原始 设备 制造 商 
HRI (自然 人 与 机 器 人 ) 人 机 交互 OGS 单 镜片 方案 
HSL 色 度 -饱和 度 -亮度 OLED 有 机 发 光 二 极 管 
HTER 半 总 错误 率 OPWM 最 优 脉 宽 调 制 
IEEE 美国 电气 和 电子 工程 师 学 会 os 操作 系统 
IOB 由 内 向 外 开始 OWL 网 络 本 体 语言 
IP 知识 产权 PC 个 人 电脑 
IPS 共 面 转换 PCA 主 成 分 分 析 
IR 红外 线 p — Cap 投射 电容 
ITO 钢 锡 氧化 物 PCB 印 制 电路 板 
iVSM 插入 电压 传 感 和 矩阵 PDA 个 人 数字 助理 
JFA 闫 合 因素 分 析 PDF 概率 密度 函数 
LBP 局 部 二 值 模式 PET 聚 对 葵 二 甲酸 
LCD 液晶 显示 (AF) PET 正 电子 发 射 计算 机 断层 显 像 
LCDM 亮度 补偿 式 差异 性 测量 法 PIN 光电 二 极 管 
LDA 线性 判别 分 析 PLP 感知 线性 预测 分 析 
LDPP 学 习 判 别 投射 和 原型 POI 信息 点 终端 
LED 发 光 二 极 管 POMDP 部 分 可 观察 马尔 可 夫 决 策 过 程 
LM 语言 模型 POS 销售 点 
LoG 高 斯 - 拉 普 拉 斯 算 子 PPI 每 英寸 像素 
LVCSR 大 型 词汇 连续 语音 识别 PSD 平面 散射 检测 
MAGIC 鼠标 和 凝视 输入 级 联 PSOLA 基 音 同步 到 加 法 
MAP 最 大 后 验 概率 PWM 脉 宽 调 制 
MARS 多 点 触 控 模 拟 电阻 感应 器 QA 问题 解答 
MCE 最 小 分 类 错误 QDA 二 次 判别 分 析 
ME 调制 效率 RAM 随机 存 取 存 储 器 
MFCC 梅 尔 频率 倒 谱 系数 RASTA 相对 光谱 分 析 
MLIR 最 大 似 然 线 性 回归 RBF 12 AE PR BL 
MMIE 最 大 交互 信息 估计 法 RDF 资源 描述 框架 
MMSE 最 小 均 方 误差 RDFS 资源 描述 框架 图 示 
MOBIO 移动 生物 计量 RDP 基于 可 靠 性 的 动态 程序 设计 
MPE 最 小 音素 错误 RFI 射频 干扰 
MRI ESET UR RGB 红 - 绿 - 蓝 
MTC 小 组 委员 会 RL 强化 学 习 
NAP JERR ERE ROC 受 试 者 工作 特征 (HHR) 
NCC 归 一 化 互相 关 RRFC 反 向 斜 铺 场 电容 
NER 命名 实体 识别 RRS 丰富 站 点 摘要 
NFI 近 场 成 像 s3D 立体 像 对 三 维 
NIR 近 红 外 线 SAD 绝对 误差 和 
NIRS 近 红 外 光谱 学 SAW 表面 声波 
NIST 美国 国家 标准 与 技术 研究 院 SAYS 边 说 边 滑 
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( 续 ) 
SBM 平方 二 进 制 法 TIR 全 内 反射 
SD 平方 差 TOF 改行 时 间 
SDK 软件 开发 包 TTS 文本 语音 合成 
SDRT 分 段 语 篇 表达 式 理论 UI 用 户 界面 
SID 国际 信息 显示 学 会 UID 唯一 标识 
SLM 统计 语言 模型 US - VISIT 美国 访客 和 移民 身份 指示 技术 
SMS 短信 服务 VA 虚拟 助理 
SNR fa BLL VR 语音 识别 
SPIE 国际 光学 工程 学 会 VTLN 声 道 长 度 均 值 化 
SPWN 正弦 脉 宽 调制 WEST 加 权 有 限 状 态 传感器 
SRGS 语音 识别 语法 规范 WIT 加 窗 传 里 叶 变 换 
STFT 短 时 傅 里 叶 变换 人 机 交互 的 简约 风格 
WIMP a 加 
TCON 定时 控制 器 (窗口 、 图 标 、 菜 单 、 指 示 ) 
TFA 全 要 素 分 析 WTA 性 者 全 得 
TFT 薄膜 晶体 管 
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过 往 的 科幻 现 已 成 真 ， 在 人 工 智能 时 代 现 在 我 们 与 计算 机 手机 和 娱乐 
设备 的 互动 正在 经 历 革命 性 的 变化 ， 基 于 触摸 、 手 势 、 语 音 和 视觉 的 自然 人 
机 交互 正在 逐渐 替代 使 用 键盘 、 鼠 标 和 游戏 手柄 等 的 交互 。 显 示 设 备 也 从 单 
纯 的 显示 设备 转变 为 提供 更 具 吸 引力 和 沉浸 式 体验 的 双向 交互 设备 。 本 书 将 
深入 讲解 基于 和 触摸、 手势、 语音 和 视觉 等 自然 人 机 交互 领域 的 技术 、 应 用 和 
未 来 趋势 。 

本 书 适合 从 事 人 机 交互 领域 工作 的 研究 、 设 计 、 开 发 人 员 ， 相 关 专 业 师 
生 ， 以 及 人 工 智能 时 代 下 对 人 机 交互 未 来 发 展 趋势 有 浓厚 兴趣 的 人 士 阅读 。 
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AR HA 
o 提供 了 有 关 触 控 技 术 的 明确 指导 ， 包 括 优点 、 局 限 性 和 未 来 的 趋势 。 
o 涵盖 了 基于 语音 交互 的 语音 输入 、 处 理 和 识别 技术 的 原理 讲解 和 应 用 案例 解读 。 
o 提供 了 新 兴 的 基于 视觉 感知 技术 和 手势 、 身 体 、 面 部 、 眼 球 追踪 交互 的 详解 说 明 。 
吕 讨论 了 多 模式 自然 用 户 交互 方案 ， 直 观 地 将 触摸 、 语 音 和 视觉 结合 在 一 起 ， 实 现 真实 感 互动 。 
o 审视 实现 真正 3D 沉 漫 式 显示 和 交互 的 要 求 和 技术 现状 。 
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